您目前的位置: 首页» 资料荟萃» 陈庆修:深度学习与大数据解析

陈庆修:深度学习与大数据解析

  深度学习的概念于2006年提出,是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本,已被应用于许多领域,如人脸识别、语音识别等。深度学习已成为人工智能领域研究的热点。

  随着人工智能的迅速发展,通过深度学习,用计算机来模拟人的思考、推理、规划等思维过程和智能行为取得了长足进步。人工智能的重要特征就是拥有学习的能力,也就是说系统的能力会随着经验数据的积累不断演化和提升。近年来,正是得益于深度学习为大数据处理开辟了有效途径,人工智能得到了空前发展。

  (一)

  机器学习来源于早期的人工智能领域,是计算机科学和统计学的交叉学科。它使用算法来解析数据、从中学习,然后对真实世界中的事件进行决策和预测。传统人工智能的机器学习是通过标记数据进行有监督学习,随着时间推移其多样性、复杂性和进化力也随之增长,呈现加速度特点,对于这种传统算法数据量越大负担越重,很容易达到极限或产生错误结果。

  深度学习有明显长处,首先它是一套丰富的建模语言,或者说是建模框架,可以用来表达数据内在的丰富关系和结构,比如图像中的2D空间结构,自然语言的时序结构;其次,它几乎是唯一的端到端(end-to-end)的机器学习系统,它的目标是直接作用于原始数据,自动逐层做数据特征变换,整个学习过程直接优化某个问题相关的目标函数,而传统的机器学习往往被分解为几个不连贯的步骤,并非一致优化某个整体的目标。

  (二)

  大数据给人工智能的发展提供了前所未有的机遇。随着各个行业信息化程度的普及,数据积累地越来越多。大数据资产化和规模化具有很大的潜在价值,当没有足够高效的处理工具时,即使这些数据样本再大,也难以提取出任何有价值的东西。数据的数量和效率之间存在矛盾,收集更多的数据有助于提高最终结果的准确性,但数据量越大,处理起来就越费时费力。面对海量数据,如何低成本且高效率地存储和处理大数据任重道远。

  数据挖掘是个很宽泛的概念,其常用方法大多来自于机器学习这门学科。深度学习可以更好地通过增加数据集的规模来改善学习结果,它取得成功的条件是,大规模训练数据集的支撑、先进的硬件平台支持、新的优化技术的创新。

  从统计和计算的角度来说,深度学习是在海量数据中寻找复杂规律的算法工具。由于以深度学习分析和处理大数据效果不错,它自然而然就成了大数据挖掘开发应用的有力工具。如果把深度学习比作火箭的发动机,大数据就是燃料,深度学习可以利用大数据这种燃料将人工智能推到一个新高度。面对万物互联时代所产生的数据暴增,深度学习大有可为。

  (三)

  深度学习算法可以做到传统人工智能算法无法做到的事情,而且输出结果会随着数据处理量的增大而更加准确。这将大幅度提高计算机处理信息的效率,从而吸引更多的资源向它聚合,使其发展更为迅速。深度学习使得机器学习能够实现众多的应用,并可拓展人工智能的领域范围。

  以深度学习挖掘无标签的数据是大数据时代的一个热点。仅以医学领域为例,经过深度学习训练的图像识别,从辨别血液中癌症的早期成分,到识别核磁共振成像中的肿瘤,在许多情况下甚至可以做得比人更好。今后医疗就变成了一个数据处理的过程,利用深度学习可以在基因未能被勘测的区域发现自闭症和癌症的突变迹象,通过构建虚拟现实可以治疗毒瘾、酗酒、自闭症等疾病。同时,由于机器在处理病情时可以做到完全按照数据处理结果进行客观诊断,所以不会像人类一样因为情感方面的原因作出错误判断。

  深度学习带来更好的信息处理能力,不仅体现在人工智能领域,还体现在信息化医疗、经济社会、军事科技和资源环境等众多领域,从而产生广泛和深远的影响。有了深度学习,人工智能就会在语音识别、计算机视觉、自然语言理解、机器人、自动驾驶等领域取得突破性进展,甚至可以像科幻小说所描述的一样,使得所有的机器辅助功能都变为可能。

  总之,大数据已经变成各个行业的基础架构,而真正能帮助这些行业处理好数据,并最终实现具体应用的还是深度学习。深度学习既可以从众多领域的大数据中淘出“金子”,又可以利用这些大数据为人工智能的发展插上翅膀。