清华大学张钹院士：人工智能技术已进入第三代全球人工智能

添加时间：2019-09-19 点击次数：1442

近日，中科院院士、清华大学人工智能研究院院长张钹教授接受记者采访时认为，目前基于深度学习的人工智能在技术上已经触及天花板。从长远来看，必须得走人类智能这条路，最终要发展人机协同，人类和机器和谐共处的世界。未来需要建立可解释、鲁棒性的人工智能理论和方法，发展安全、可靠和可信的人工智能技术。

张钹院士：AI奇迹短期难再现深度学习技术潜力已近天花板

在Alphago与韩国围棋选手李世石对战获胜三年过后，一些迹象逐渐显现，张钹院士认为到了一个合适的时点，并接受了此次的专访。

深度学习目前人工智能最受关注的领域，但并不是人工智能研究的全部。张钹认为尽管产业层面还有空间，但目前基于深度学习的人工智能在技术上已经触及天花板，此前由这一技术路线带来的“奇迹”在Alphago获胜后未再出现，而且估计未来也很难继续大量出现。技术改良很难彻底解决目前阶段人工智能的根本性缺陷，而这些缺陷决定了其应用的空间被局限在特定的领域——大部分都集中在图像识别、语音识别两方面。

同时，在张钹看来，目前全世界的企业界和部分学界对于深度学习技术的判断过于乐观，人工智能迫切需要推动到新的阶段，而这注定将会是一个漫长的过程，有赖于与数学、脑科学等结合实现底层理论的突破。

作为中国少有的经历了两个人工智能技术阶段的研究者，张钹在过去数年鲜少接受采访，其中一个原因在于他对目前人工智能技术发展现状的估计持有部分不同看法，在时机未到之时，张钹谨慎的认为这些看法并不方便通过大众媒体进行传播，即使传播也很难获得认同。

一、“奇迹并没有发生，按照我的估计，也不会继续大量发生”

经济观察报：您是如何估计和评价目前人工智能发展的现状？

张钹：这一轮人工智能热潮是本世纪初兴起的。首先是出现在学术界。学术界过去对人工智能是冷遇的，但是多层神经网络的出现带来了一些改变，神经网络的理论在上世纪50年代就有了，但是一直处于浅层的应用状态，人们没有想到多层会带来什么新的变化。

真正引起大家注意的就是2012年斯坦福的实验（注：2012年谷歌和斯坦福利用多层神经网络和大量数据进行图像识别的实验），过去实验的图像样本数最多是“万”这个级别，斯坦福用了1000万，用多层神经网络来做，结果发现在人脸、人体、猫脸三个图像类别中，这个模型的识别率大概有7%-10%的提高。

这给大家非常大的震动，因为通常识别率要提高1%要做好多努力，现在只是把层数增加了，竟然发生两大变化，一个是识别率提高这么多；第二个是能处理这么大数据。这两个变化给大家非常大的鼓舞，何况在2012年之前，人工智能没有解决过实际问题。

经济观察报：这种突破的原因是什么？

张钹：现在分析下来是三个原因，大家也都非常清楚了，一个大数据、一个是计算能力、一个是算法。认识到之后，一夜之间业内业外对深度学习都非常震动，然后就发生了三件历史性的事件。

第一件事是2015年12月，微软通过152层的深度网络，将图像识别错误率降至3.57%，低于人类的误识率5.1%；第二件事，2016年微软做的语音识别，其词错率5.9%，和专业速记员水平一样；第三件事：Alphago打败韩国围棋选手李世石。

通过人工智能，利用深度学习、大数据这两个工具，在一定条件下、一定领域内竟然能够超过人类，这三件事情给大家极大的鼓舞。

特别是对于业外的人，都认为我只要掌握了大数据，利用深度学习说不定还能搞出奇迹来，于是大家做了很多很多预测，比如在多短时间内计算机会在什么事情上能超过人。

但实际上，在这个之后，奇迹并没有发生，按照我的估计，今后也不会大量发生。准确一点说，今后或许会在个别领域取得进展，但是不会像之前预计的那样全面开花。特别是中国市场乐观的认为“中国市场大、数据多，运用又不受限制，所以将来奇迹一定会发生在中国”。

结果很多企业在做的时候发现，不是那么回事。从目前的情况来看效果最好的事情还是这两件：图像识别、语音识别。我看了一下，中国人工智能领域20个独角兽30个准独角兽企业，近80%都跟图像识别或者语音识别有关系。

经济观察报：为什么会出现这样的情况？或者说在这么长时间后，我们对人工智能目前能做什么有一个清晰的认识了吗？

张钹：人工智能在围棋上战胜人类后产生了这种恐慌，“大师才能做的事，人工智能居然能做，我的工作这么平凡，肯定会被机器所替代”。这里需要考虑一下它的局限性，我一直在各种各样的会上谈到不要过于乐观。

人工智能能做的那三件事（语音识别、图像识别、围棋）是因为它满足了五个条件，就是说只要满足了这五个条件，计算机就能做好，只要有任何一个或者多个条件不满足，计算机做起来就困难了。

第一个是必须具备充足的数据，充足不仅仅是说数量大，还要多样性，不能残缺等。

第二个是确定性。

第三个是最重要的，需要完全的信息，围棋就是完全信息博弈，牌类是不完全信息博弈，围棋虽然复杂，但本质上只需要计算速度快，不要靠什么智能，可是在日常生活中，我们所有的决策都是在不完全信息下做的。

第四个是静态，包括按确定性的规律演化，就是可预测性问题，在复杂路况下的自动驾驶就不满足这一条；实际上它既不满足确定性，也不满足完全信息。

第五个就是特定领域，如果领域太宽他做不了。单任务，即下棋的人工智能软件就是下棋，做不了别的。

经济观察报：就是说在满足这五个条件的前提下，目前的人工智能是胜任部分工作的？

张钹：如果你的工作符合这五个条件，绝对会被计算机替代，符合这五个条件的工作特点很明显，就是四个字“照章办事”，不需要灵活性，比如出纳员、收银员。如果你的工作富有灵活性和创造性，计算机绝对不可能完全代替，当然部分代替是可能的，因为其中肯定也有一些简单和重复性的内容。如果认识到这一条就会认识到人工智能仍处于发展阶段的初期。不是像有些人估计的那样“人工智能技术已经完全成熟，而进入发展应用的阶段”。

二、“深度学习技术，从应用角度已经接近天花板了”

经济观察报：我们应该怎么去定义目前的深度学习技术路线，它是基于概率学的一个事物吗？

张钹：现在的深度学习本质是基于概率统计，什么叫做概率统计？没有那么玄，深度学习是寻找那些重复出现的模式，因此重复多了就被认为是规律（真理），因此谎言重复一千遍就被认为真理，所以为什么大数据有时会做出非常荒唐的结果，因为不管对不对，只要重复多了它就会按照这个规律走，就是谁说多了就是谁。

我常常讲我们现在还没有进入人工智能的核心问题，其实人工智能的核心是知识表示、不确定性推理这些，因为人类智慧的源泉在哪？在知识、经验、推理能力，这是人类理性的根本。现在形成的人工智能系统都非常脆弱容易受攻击或者欺骗，需要大量的数据，而且不可解释，存在非常严重的缺陷，这个缺陷是本质的，由其方法本身引起的。

经济观察报：就是说通过改良的方式无法彻底解决？比如我们再增加神经网络层数和复杂性或者再提升数据的量级，会解决它的缺陷吗？

张钹：改良是不行的，深度学习的本质就是利用没有加工处理过的数据用概率学习的“黑箱”处理方法来寻找它的规律，这个方法本身通常无法找到“有意义”的规律，它只能找到重复出现的模式，也就是说，你光靠数据，是无法达到真正的智能。

此外，深度学习只是目前人工智能技术的一部分，人工智能还有更大更宽的领域需要去研究，知识表示、不确定性处理、人机交互，等等一大片地方，不能说深度学习就是人工智能，深度学习只是人工智能的一部分。一直到去年人工智能大会交流的论文还是三分之一是机器学习方面，三分之二是其他方面。

经济观察报：学界在这上面还是有一个比较清晰的认识？

张钹：我可以这么说，全世界的学界大多数有清晰的认识；全世界的企业界大多持过于乐观的估计。

为什么出现这样的情况呢？因为从事过早期人工智能研究的人，大多已经故去或者年老，已经没有话语权。现在活跃在人工智能研究第一线的都是深度学习、大数据兴起以后加入的，他们对人工智能的了解不够全面。

经济观察报：如果说每一个技术路线都有一个“技术潜力”，那么在深度学习方面，我们已经把这个潜力用了多少？

张钹：科学研究是很难精确估计的，但是深度学习如果从应用角度，不去改变它，我觉得已经接近天花板了，就是说你要想再出现奇迹的可能性比较小了。

经济观察报：那基于此，目前商业公司在底层技术和产业应用上还是有很大的空间吗？

张钹：只要选好合适的应用场景，利用成熟的人工智能技术去做应用，还有较大的空间。目前在学术界围绕克服深度学习存在的问题，正展开深入的研究工作，希望企业界，特别是中小企业要密切注视研究工作的进展，及时地将新技术应用到自己的产品中。当然像谷歌、BAT这样规模的企业，他们都会去从事相关的研究工作，他们会把研究、开发与应用结合起来。

经济观察报：有一种观点认为我们强调的“白盒”（可理解性）它实际上是从人的思维来强调的，但是通过大数据、概率统计工具离散到连续的投射，它实际上是机器的思维，你不一定需要它给你一个解释，只要正确的答案就可以了？

张钹：目前有两种意见，一种观点认为智能化的道路是多条的，不是只有一条路能通向智能，我们通过自然进化产生了自然智能，那么我们为什么不能通过机器产生机器智能？这个智能和自然智能不会是完全一样的，条条大路通罗马，我们通过自然进化获得的智能也不见得是最佳的。这个观点我赞成，机器智能与人类不相同，其实是有好处的，恰恰可以互补，发挥各自的长处。

但是从长远来看，必须得走人类智能这条路，为什么？因为我们最终是要发展人机协同，人类和机器和谐共处的世界。我们不是说将来什么事情都让机器去管去做，人类在一边享受。我们要走人机共生这条路，这样机器的智能就必须和人类一样，不然没法共处，机器做出来的事情，我们不能理解，我们的意图机器也不知道，二者怎么能合作？

经济观察报：就是必须具有可解释性？

张钹：是，就是可解释性，你要它做决策，你不理解它，飞机就让它开，谁敢坐这架飞机？所以目前的阶段，车和飞机还是不能完全让机器开的。为什么司机坐在上面我们放心？因为我们和他同命运，要撞死一块撞死，机器和你可不是同一命运，它撞不死，你撞死了。

有的人非常脱离实际的去想这个问题，这是不对头的，人类怎么会去那样发展机器呢（注：指把人类的命运全部交给机器）？人类不会去那么发展的，有些人在那边担忧什么机器人统治人类，我说这最多只能算远虑。

经济观察报：所以图灵的论文中也说这种观点“不值一驳”。

张钹：是，那是远虑，我们目前还有很多近忧，发展人工智能必须要考虑安全问题，这已是现实问题。

你看语音合成，利用现有的技术可以做到以假乱真，和真人基本没有差别。现在看来这种技术不能推广应用，因为一旦推广就全乱套了，只要搞一段用语音合成技术做成的假录音，就可以让任何一位名人身败名裂。这些都是非常危险的技术。人工智能的治理已经提到日程上了。

三、“我们培养不出爱因斯坦、培养不出图灵”

经济观察报：一种观点认为中国有更多的数据和更多的工程师，这种规模能倒推带来基础研究层面的突破或者决定技术的路线？

张钹：这里混淆了好多概念，科学、技术、工程。科技水平需要三个标准来衡量，一个是科研水平、一个是技术水平、一个是工程实践能力，或者产业化能力。

我们中国什么情况？从工程角度来看，在一些领域我们“接近世界水平”；技术水平我用的词是“较大差距”，因为不少东西还是外国会做我们不会做；科研究领域我用的词是“很大差距”，科学研究就是原创，实际上，所有人工智能领域的原创成果都是美国人做出来的，人工智能领域图灵奖得主共十一人，十个美国人，一个加拿大人。

经济观察报：数据显示中国在人工智能领域的论文发表量和被引用次数都已经进入前列位置，这是否说明中国人工智能科学研究领域的突破？

张钹：如果单从论文来看研究水平，基本反映在三个指标上：数量、平均引用率、单篇最高引用率。拿人工智能来讲，中国研究者论文的数量和平均引用率都还不错，但是单篇最高引用率和世界差距就很大，而这个指标恰恰是反映你的原创能力。

也就是说深度学习这个领域，我们的平均水平达到世界水平了，但是最高水平和世界差距还是很大的。不过还是要肯定的，我们应用上发展比较快。

经济观察报：清华在这方面有什么优势吗？

张钹：在人工智能重要的会议杂志上，这十年期间论文数量、平均质量CMU（美国卡耐基梅隆大学）排第一，清华大学排第二。我们培养的人，在计算机这个领域，清华的本科、博士生都是世界一流的。

目前我们的跟踪能力是比较强的，一旦有人起个头，我们能迅速跟上去。但是很可惜，我们缺乏顶尖人物，也培养不出顶尖的人才，如爱因斯坦、图灵等。

我个人认为原因之一，可能与中国的文化有点关系，我们的从众心理很严重，比如在人工智能领域，深度学习很热，发表的论文作者中几乎70%是华人，但是其他非热门领域，包括不确定性推理、知识表示等几乎没有华人作者。这就是从众扎堆，不愿意去探索“无人区”。

当然也不要着急，科学研究本来就是富人干的事情，是富国干的事情，我们还是发展中国家，科学研究起点比较低，暂时落后是难免的，我们会迎头赶上。

四、“低潮会发生，但不会像过去那样”

经济观察报：如果说深度学习已进天花板，那么人工智能未来的前进方向将会在哪？

张钹：最近我们准备提出一个新的概念，就是第三代人工智能的概念，人工智能实际上经历过两代，第一代就是符号推理，第二代就是目前的概率学习（或深度学习），我们认为现在正在进入人工智能的第三代。原因很明显，第一代、第二代都有很大的局限性。

经济观察报：你所说的第三代人工智能技术是有明确的实现方向或者特点吗？

张钹：我们现在提出的是要建立可解释、鲁棒性（注：可以理解为稳健性）的人工智能理论和方法，发展安全、可靠和可信的人工智能技术。

经济观察报：这样的技术可能要等很久？

张钹：是啊，很难预计，我们也很着急。

经济观察报：是不是还得回归到数学等理论层面里再去找新的方法？

张钹：这个目前我们有两条路，一个是和数学结合，一个是和脑科学结合。你想想如果没有新的数学工具，没有来自于脑科学启发下的新思路，哪来的新理论？另一方面是要把数据驱动和知识驱动结合起来，因为通过数学、脑科学上寻求突破是比较艰难的，前面这件事现在则完全能够做。

经济观察报：这个结合是指之前几十年人工智能的经验统合到一块？

张钹：是的，至少有一个方向就是要把第一代和第二代结合，利用各自的优势。但是这两个结合很困难，因为他们在不同空间中操作，一个是向量空间，一个是符号空间，也需要有新的数学工具的加入。

经济观察报：看人工智能历史，每一代技术之间有很长的间隔期，第三代人工智能技术也会这样吗？

张钹：我认为会更长，因为需要攻坚，因为遇到的问题更困难。

经济观察报：会不会再过10年、20年，人工智能在学界或者公众心中，又变成一个“隐学”，就像70、80年代那样，大众又不会再经常提起来这个词？

张钹：低潮会发生，但不会像过去那样，原因在哪？因为有大数据、互联网和强大的计算资源，这些都会支撑人工智能继续走下去，尽管有的时候还只是表面上的繁荣。

附：在2018 全球人工智能与机器人峰会上，清华大学人工智能研究院院长张钹院士做题为“走向真正的人工智能”（Towards A Real Artifitial Intelligence）的大会报告。以下为报告全文，供大家学习交流。

张钹院士：走向真正的人工智能

我今天要讲的中心思想就是：我们现在离真正的人工智能还有一段很长的路。为了讲清这个思想，我必须回答下面三个问题：

第一，什么叫做真正的人工智能？我们的目标是什么？第二，为什么我们需要真正的人工智能？
第三，我们如何走向真正的人工智能？

我现在回答这三个问题。

首先我们如何评价目前人工智能取得的成果，我们的评价很简单，针对这 5 件事：

第一是深蓝打败人类国际象棋冠军；第二是 IBM 在电视知识竞赛中打败了美国的前两个冠军，这两件事是一种类型，后面的三件事是另外一种类型；即 2015 年微软在 ImageNet 上做图象识别，它的误识率略低于人类。还有百度、讯飞也都宣布在单句的中文语音识别上，它的误识率也略低于人类。还有一个是大家非常熟悉的 AlphaGo 打败了李世石。这 5 件事情都是机器在一定的范围内超过了人类，我们如何来评价这 5 件事？

大家一致认为这 5 件事之所以成功，是由于前面三个因素，一是大数据，二是计算能力提高，第三是有非常好的人工智能算法。这三个因素大家都讨论得非常多了，没必要我再来说，我现在要说的最后一个因素是被大家所忽略的，这个因素是说，这所有的成果必须建立在一个合适的应用场景下。这 5 件事虽然领域很不一样，但是它们都满足完全一样的条件，或满足下面的 5 个限制，首先你必须有丰富的数据或者丰富的知识，如果这两件东西没有，或者很少，你不用来谈人工智能，因为你无法实现无米之炊。人工智能唯一的两个资源，一个是数据，一个是知识。还有确定性信息、完全信息、静态的、单任务和有限领域。这 5 个条件里面任何一个条件不满足，现在的人工智能做起来就非常困难了。

大家想想这 5 个限制条件下的应用场景是什么样的应用场景？就是照章办事，不需要任何灵活性，这显然不是智能的核心。

我们现在分析一下上述 5 个场景。下象棋是完全信息博弈，信息完全和确定，没有问题。其次，它遵循着完全确定的游戏规则演化，我们把这种情况也叫做静态。Watson 机器人也是这样，Watson 是什么样的对话问题呢？它为什么选择知识竞赛呢？我们知道知识竞赛提的问题都没有二义性，都是明确的，它的答案总是唯一性的。所以这样的问答对机器人来讲是非常容易的。它涉及的领域虽然比较宽，但也是有限的，包括大家觉得很玄乎的围棋，也完全符合上面 5 个条件，所以对计算机来说也是很容易的。目前计算机打麻将就不行，因为牌类是不完全信息博弈，所以比棋类要难。总之，我们对目前人工智能取得的成果要有一个正确的评价。

目前的人工智能技术在以下领域都可以找到它的应用，它们是交通、服务、教育、娱乐等等，但我要强调是这些领域里面只有满足上述 5 个条件的事情，计算机做起来才会容易，如果不满足这些条件，计算机就做起来就困难了。大家常常关心什么样的工作会被机器所替代，我可以明确告诉大家，满足这 5 个条件的工作，总有一天会被计算机取代，就是那些照章办事，不需要任何灵活性的工作，比如说出纳员、收银员等等。在座的所有工作都不可能被计算机完全代替，但不排斥你的工作中有一部分会被计算机取代，老师、企业家等的工作不可能被计算机完全代替。

上一页：全球科创中心发展的新动向及其启示
下一页：中国科技体制的演变