深度学习：人工智能进入应用阶段 - 动态报道 - 北京数字电视国家工程实验室有限公司

行业动态

热点聚焦

深度学习：人工智能进入应用阶段

发布作者：文章来源：数字电视中文网发布时间：2017-03-31 10:30:00 浏览次数：字号：大中小

【摘要】深度学习是机器学习研究中的一个新领域，其过程是建立和模拟人脑进行分析学习的神经网络，从而模仿人脑的机制来读取和分析数据。深度学习被视为当前最接近人工智...
深度学习是机器学习研究中的一个新领域，其过程是建立和模拟人脑进行分析学习的神经网络，从而模仿人脑的机制来读取和分析数据。深度学习被视为当前最接近人工智能的机器学习方法。

2016年初，采用神经网络与深度学习的AlphaGo战胜人类围棋高手，2016年末2017年初，化名Master的AlphaGo在网络平台上横扫中日韩棋坛，取得60连胜辉煌战绩。

在AlphaGo之前，深度学习已开始应用于图像、声音和文本的识别以及机器翻译。在人工智能被提出半个世纪之后，人们终于看到了人工智能进入应用阶段的曙光。

从人机大战说起

从体力上看，机器早早就超过人类，但骄傲的人类觉得在智力上更胜一筹。这种情况似乎正在发生变化，在人机智力对抗中，人类开始处于下风。

第一回合：人类险胜

人与计算机的对抗可以上溯至20世纪70年代，最早是计算机技术人员在实验室一种休闲娱乐。随着计算机速度的不断提高，在整个20世纪80年代和90年代的家用电视游戏机和电脑游戏中都有很多与电脑对抗的棋牌游戏，普通玩家和计算机的对决有输有赢，而在职业选手或者业余高手面前，虚拟对手不堪一击。

1996年2月，由IBM开发的超级电脑深蓝（Deep Blue）挑战国际象棋世界冠军卡斯帕罗夫，在经过7天的比赛之后，深蓝以2:4告负。这是历史上第一次由人工智能挑战世界顶级棋类选手，深蓝输了比赛却引起全球对人工智能发展的高度关注，这台冷冰冰的机器在比赛中并没有让世界冠军好受，卡斯帕罗夫虽然最终赢得比赛，但也宣告了人机对抗中人类胜利的历史的结束。

第二回合：人类完败

1996年到2016年的二十年，人类与机器之间进行了三次标志性的竞赛，均已人类失败告终。

1997年，IBM深蓝再次挑战卡斯帕罗夫，虽然离上一次比赛仅仅一年的时间，但世界冠军这次招架不住了。最终，深蓝以3.5:2.5赢得比赛，成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统，同时也标志着人机智力对抗中，机器已经实现逆转。

2011年，IBM开发的由90台Power 750服务器组成的集成服务器沃森（Watson）参加了美国著名综艺答题节目《危险边缘》。在三天的比赛里，沃森最终击败最高奖金得主鲁特尔和连胜纪录保持者詹宁斯，获得了100万美元的奖金。这是人工智能在综艺节目上第一次击败人类选手获得最高奖金。相对于深蓝，沃森需要处理的信息更加复杂，在一些提示信息相对较少的问题面前表现确实不如人类，但是依靠强大数据处理能力和运算速度上的优势，人类冠军最终不敌沃森。

如果说1997年深蓝的胜利和2011年沃森的胜利主要依靠机器高速的运算能力，人类仍然在模糊数据识别和处理、交流、情感表达等方面胜过机器，特别是，人类的学习能力仍然是机器难以掌握的技能。然而到2016年，这一切都发生了改变。2016年伊始，谷歌宣布其伦敦子公司DeepMind开发的AlphaGo机器人以5:0大胜欧洲围棋冠军樊麾，随后又以4:1比分战胜世界冠军韩国围棋国手李世石。

从2016年底开始，谷歌给世界开了个一个大玩笑，AlphGo化名Master在围棋网络平台上所向披靡，将中日韩的一个个顶尖棋手斩于马下，取得了60连胜辉煌战果。围棋是迄今为止最复杂的棋类游戏，如果机器能够在围棋上战胜人类顶尖选手则意味着至少在棋类游戏上实现了对人类的全面超越。

加入神经网络的AlphaGo与前辈深蓝、沃森的显著区别是：深蓝和沃森都是“教”出来的，IBM的设计员和程序员们从国际象棋大师那里获得象棋的各种信息，通过一系列算法提炼出特定的规律，再通过预编程灌输给深蓝；沃森也是通过预先设置的逻辑运算理解题目含义并给出可能正确的答案。

相比较，AlphaGo是自己“学”出来的——DeepMind的程序员为它灌输的不是逻辑规则和方法，而是模拟人脑的学习能力，AlphaGo通过自己不断的训练和研究学会围棋并掌握各种技巧，在比赛中也是根据对手的棋路判断最优的策略，这一过程和人类学习围棋并成为高手是相同的。

第三回合：休战、共赢

今后，人与机器的比赛还会以更加喜闻乐见的形式出现在各种场合，但AlphaGo已经让绝大多数人认识到人工智能时代即将到来，以及承认机器终将超越人类智慧的现实，人与机器之间不需要再继续比赛，合作才是人与机器关系的未来。

无论是深蓝、沃森还是AlphaGo，其研发的目的远不止赢得一场比赛。IBM早将深蓝和沃森系统应用于药物研发、金融风险计算等领域。至于输给深蓝的卡斯帕罗夫，并没有因为失败而一蹶不振，后来他又拿下了几乎所有著名国际象棋比赛的冠军，最后退出国际象棋界后又进军政界。输给AlphaGo的李世石人气大涨，参加各种访谈和综艺节目，围棋在韩国年轻人中进一步升温。人机大战在比分上表现为人类的完败，但最终的结果是大家都从中获利。

计算机怎样思考：控制派vs仿生派

AlphaGo与深蓝、沃森的区别是采用了神经网络，实现了深度学习。那么神经网络与深度学习到底是什么？它们的出现对计算机和人工智能的发展到底起到了多大的作用呢？

要了解计算机怎样思考，不得不提到人工智能之父——阿兰·麦席森·图灵，这位生于20世纪初，直到42岁英年早逝时也没有看到一台真正意义上计算机的数学天才，提出了著名的“图灵实验”，即如果第三者无法辨别人类与人工智能机器反应的差别，则可以论断该机器具备人工智能。

图灵之后，对人工智能的研究分化为两大派别：一是强调思路模拟的控制派；二是强调自我意识的仿生派。简单而言，控制派认为人工智能就如同一个专家会议，希望通过完美无缺的逻辑来实现思考；而仿生派认为人工智能就是人脑，人脑怎样思考，计算机大脑就怎么思考。

1948年，美国应用数学家诺伯特·维纳的著作《控制论》出版，他开启的控制论（cybernetics）被称作20世纪最伟大的科学成就之一，同时也被尊为人工智能中控制派的鼻祖。维纳的学生迈克尔·阿比卜出版了控制论的科普读物《大脑、机器和数学》，并随后创办了麻省理工大学计算机系。

1951年，后来获得第一届图灵奖的美国科学家马文·明斯基创造了一台学习机——Snare，从中发现了在当时看来神经网络致命的弱点。明斯基的另一个重大贡献是与另两位在计算机领域声名显赫的人物——麦卡锡、香农创办了第一个人工智能学术性团体“达特茅斯会议”。2016年初，明斯基去世，享年89岁，三天以后，谷歌宣布采用深度学习的AlphaGo战胜欧洲围棋冠军。

如果要追溯仿生派的起源，则早在图灵实验提出之前的1943年，美国科学家麦卡洛可和皮茨就发表了模拟神经网络的论文。1949年，加拿大心理学家赫布提出了著名的“赫布理论”，即突触前神经元向突触后神经元的持续重复的刺激可以导致突触传递效能的增加，这一理论直到2000年才在动物实验中被证实。1958年，美国实验心灵学家罗森布拉特在计算机上成功模拟了被称为“感知机”的神经网络模型。感知机能够处理一些简单的视觉信号，虽然还非常粗糙和初级，但可以说第一次实现了对人脑的成功模拟。

可惜的是，在罗森布拉特发明“感知机”后长达20多年的时间里，神经科学和信息科学并没有很好的结合，两者各有成就，但仿生派始终不敌控制派。直到20世纪80年代，仿生派才进入一个繁荣时期，其中以1982年霍普菲尔德提出了递归神经网络，和1986年鲁姆哈特和麦克莱兰提出了具有里程碑意义的BP神经网络为代表。

在20世纪90年代，互联网兴起和普及，大批计算机科学家投入到有巨大市场和经济效益的互联网相关研究中，无论是控制派还是仿生派取得的成就都被互联网的高速发展所掩盖，当然，互联网作为新的信息技术手段也对人工智能的进步提供了全新的平台。

2006年，杰弗里·辛顿提出了反向传播算法和对比散度算法，即“深度学习”，突破了明斯基在半个世纪前提出的神经网络存在的局限。2012年，斯坦福大学和谷歌秘密X实验室用1000台计算机构建了全球最大的电子模拟神经网络，该网络拥有10亿个连接的人工神经网络“谷歌大脑”。实验人员向神经网络展示1000万断（张）从YouTube上随机提取的图像，最后，系统在没有任何外界干预的情况下，认识到了“猫”是什么并成功分辨出猫的照片，准确率超过80%，这一事件为人工智能发展翻开崭新一页，标志着以“深度学习”为代表的人工智能发展即将进入应用阶段。

开挂的机器学霸

要真正理解神经网络、深度学习的原理需要高深的生物学、数学和电子信息方面的知识，在很多专业性很强的书籍、文章中能找到答案。这里，我们希望通过简单的语言对神经网络、深度学习等相关概念进行通俗易懂的描述。

1．对人脑的仿生：人工神经网络的构建

人脑的神经元（神经细胞）由三个主要部分组成：树突负责信息的输入、细胞体负责处理信息、轴突则负责处理后信息的输出。当神经元接受到外界刺激时，经过内部的信息处理，将结果输出，这个过程看起来非常简单，但却是人脑思维形成的最基本过程。如果将算法赋予电子元件（例如CPU），并通过信号通道将这些电子元件与传感器、输入设备以及相互之间进行链接可以模拟出人脑的神经网络。计算机的硬件技术飞速发展，使得构建大规模的人工神经网络成为可能，在未来出现能够比拟甚至超过人脑的人工神经网络是完全有可能的。

以一个最简单的对苹果还是梨的判断来说明神经网络工作的原理。颜色、形状和气味是判断一个水果是苹果还是梨所需要的最基本的特征，当这些信息通过视觉、味觉或者传感器进入神经元，人脑（或者电脑）根据以往的经验，如果信息表现为红色、圆形、苹果味，那么最后的结果就是苹果。
这个过程看起来非常简单，但对于一个未加训练的人工神经网络来说，发生错误是难免的。例如，并不是所有的苹果都是红色，有的苹果是黄色，和梨的颜色非常接近；有的梨的形状和苹果也很接近；嫁接的新品种苹果梨到底算苹果还是梨，等等。当这些因素出现时，对人工神经网络来说是巨大考验，很容易给出错误的答案。

如何减少上述情况出现导致的错误呢，这就需要深度学习的帮助。

2．对学习的仿生：深度学习如何开展

在一系列残酷的动物实验之后，生物学家发现了人脑对外界刺激的识别是一个抽象和迭代的过程。例如，对一个静止图像的识别，最开始是对图像主体物边缘的识别，然后抽象到一些具体特征，最后才是对各种特征抽象和概念化以得到准确的意义。这一生物学发现意义重大，促成了人工智能在21世纪有了突破性的发展。

如果人脑的工作原理是从“浅层”的识别开始的，并将浅层识别的结果作为更高一层识别的输入信息，那么计算机搭建的人工神经网络是不是也可以仿效人脑进行工作呢？答案是肯定的。1996年，康奈尔大学在收集的大量黑白风景照片中每张随机提取16 16像素的方格，然后从任意一张风景照片中再提取一个16 16像素的方格进行比较，结果发现，包含物体边缘的方格是最容易找到非常接近的方格的。换句话说，“边缘”是识别一张风景图片的起点。这一实验证明对复杂事物的识别了从最基本“浅层”信息入手是有效和可行的。类似的实验后来被应用于语音识别，同样，“边缘”是识别一条语音最基本的“浅层”信息。

在一个单个神经网络，从信息输入到信息输出中间虽然有多个神经元，但都处于同一“层次”上，我们暂且称之为“浅层神经网络”，以区别于“深层神经网络”。识别苹果和梨貌似很简单，但对于人工神经网络则需经历一个复杂的过程。如果想让一个单层次的神经网络发挥作用，一个方法是由人来告诉计算机形状、颜色和味道信息，神经网络只做最后的一次判断。这样的做法似乎很可笑，但并非完全无用。

信息管理和数据挖掘中经常会使用到浅层神经网络，但前提是由信息管理专业的学生手工或使用软件将数据挖掘的材料准备好，这就如同由人来帮助人工神经网络判断水果形状、颜色和味道，通过人工参与弥补浅层神经网络局限性的方法。当人工智能的应用范围扩大，越来越多需要借助人工智能帮助的人员并非信息管理专业的学生，浅层神经网络已经跟不上形势和需要了。2006年，人工神经网络发展有了转折点，辛顿等研究人员提出了深度信念网络（Deep Belief Network，DBN），实现了对人脑多层神经网络信息处理、分析和学习的模拟，这推动了人工智能研究和应用向前迈进了一大步。

多层次的神经网络是实现深度学习的基础，那么与传统的神经网络比较，深层神经网络又哪些特点呢？深度学习又是如何在深层神经网络上展开的呢？

与传统的神经网络相同的是，深层神经网络也包括输入层、隐层和输出层，也只有相邻层级之间的神经元有链接通道，同一层及跨层之间是没有链接的。区别在于，深层神经网络具有更多层级数量，并且具有更有效的算法，更加接近人脑的结构，这使得深层神经网络能够处理更加复杂的输入信息，深度学习就是在这个多层级的人工神经网络上进行的。

在搞清楚深层神经网络如何进行深度学习之前，还要区别两个重要的概念：监督学习和非监督学习。简单而言，监督学习就是有人指出学习结果正确与否的学习。想象一下，当幼儿第一次看到苹果的时候，会建立一个包含苹果各种特征的概念；当下一次再看到苹果时，会加入对苹果新的概念，例如苹果并不都是红色的，还有黄色的、白色的、绿色的苹果，还有多种颜色混合的苹果。这期间，有可能会看到梨、橙子、乒乓球等与苹果在某些特征上相似的物体，幼儿可能把这些东西也认为是苹果，家长会指出错误，幼儿调整对苹果的认识，判断越来越准确。是不是很简单，这其实也是半个多世纪之前“感知机”的工作原理，通过不断优化不同输入信息的权重以实现更加准确的判断。

上述监督学习的过程，很容易忽略一个重要的前提条件，机器为什么知道通过形状或者颜色去判断一个物体是不是苹果，形状、颜色、气味是人基于经验对苹果赋予的“特征”属性，但机器并不知道这些就是苹果的特征。过去，一般由人来帮助机器先期定义“特征”，但由人参与对“特征”的选取是一件极其繁琐和耗费时间的工作，并且在面对未知事物的时候，一开始也无规律可循。在输入信息越来越复杂的情况下，人工选取特征已经难以为继了，由机器自动学习特征似乎是更好的做法，多层神经网络上进行的非监督学习能够完成这一过程。

非监督就如同一个没有家长在旁边指导的幼儿学习过程，其目的是推断出信息的内在数据规律。例如，幼儿在看到很多次苹果之后，会把具有一些圆形、红色、特殊味道的一类物体归为一类（虽然并不知道这就叫苹果）并与其他的水果区别开来，这个过程一是实现了聚类，更重要的是完成了特征学习，幼儿知道应该抓住哪些“特征”来判断一个物体是不是苹果。机器的非监督学习有类似的过程，在多层人工神经网络上对每一层级进行非监督学习，这是深度学习与传统神经网络最大区别，这一过程被称作特征学习。

我们可以总结出一个简化的深度学习过程：在深层神经网络中，采用无监督学习对每一层逐层进行训练，让机器不断学习这一层次需要识别的特征；每一层训练的结果作为更高一层集的输入信息直至最顶层；在最顶层，使用监督学习自上而下对各个层级的参数、权重、模型、算法进行微调。这一过程反复进行，直到达到一定准确度。与传统的机器学习比较，深度学习能够不需要人类帮助提取特征，这提高了学习的自主性和学习效果。

在实际应用中，对图像的识别、对声音的识别，或者像AlphaGo那样学习围棋采用的具体方法有很多，但大致的原理是相同的，只是过程和算法更加复杂。

会学习的机器能有多智能

这么多科学家的努力、巨额的研发经费投入，结果就是具备一个三岁小孩就能够熟练掌握的技能——把苹果和梨区分开来，这是不是有点得不偿失。千万不要低估这看似简单的一步，要知道，在人不介入的情况下，使机器准确区分苹果和梨，几代科学家已经为之奋斗了半个多世纪且到目前为止也不能做到100%准确。计算机在运算速度上具有远超过人类的优势，且这种优势不断扩大，其“学习”的速度也是惊人的，这使得人工智能在多个领域进入应用阶段，也成就了本章开篇提到的AlphaGo。

例如，在图像和语音识别领域，谷歌、微软、IBM、百度等公司近年来加强了深度学习的研究和商业应用。谷歌采用深度学习技术在计算机视觉挑战比赛中刷新了分类和侦测的纪录，且比之前的纪录提高了两倍多。谷歌在其视图软件中嵌入人工智能模块，实现了对字符、人脸、地标、等进行几乎精确的识别。

微软宣布其图像识别系统的错误率仅为4.94%，这不仅打破了之前百度创造的5.98%和谷歌创造的6.66%纪录，甚至低于人类在归类识别时5.1%的错误率。百度也发布了基于深度学习的语音识别系统“Deep Speech”，该系统能够模仿人类大脑新皮层中的神经活动，出错率比谷歌、微软和苹果的系统低10%以上。

深度学习一个有意思的应用是预测分析。与传统的逻辑推导不同，通过深度学习的预测分析结果令人惊讶但却异常准确。2014年巴西世界杯期间，各方人士都在预测比赛结果，在小组赛后的15场淘汰赛中，微软利用深度学习的方法的预测结果全部准确无误，而谷歌的预测也猜中了其中14场比赛结果，这样的预测准确率显然要比2008年法国世界杯的章鱼保罗，和一贯乌鸦嘴的贝利靠谱得多。
深度学习是机器学习的新浪潮，也是人工智能发展的一个里程碑，虽然深度学习已经在语音识别、图像识别、预测分析、机器翻译等领域小试身手，但客观上讲还处于襁褓阶段，无论是理论研究还是工程化商业化还面临巨大的难题。谁也不能保障深度学习在未来是否能够成为人工智能最基础的方法，或许会有新的更好的技术替代深度学习，但是可以肯定的是，人工智能的梦想不再遥远，机器将在不久的将来像人类一样思考。

此页面上的内容需要较新版本的 Adobe Flash Player。

热点聚焦