清华大学张钹院士:人工智能技术已进入第三代全球人工智能
添加时间:2019-09-19 点击次数:465
近日,中科院院士、清华大学人工智能研究院院长张钹教授接受记者采访时认为,目前基于深度学习的人工智能在技术上已经触及天花板。从长远来看,必须得走人类智能这条路,最终要发展人机协同,人类和机器和谐共处的世界。未来需要建立可解释、鲁棒性的人工智能理论和方法,发展安全、可靠和可信的人工智能技术。
张钹院士:AI奇迹短期难再现 深度学习技术潜力已近天花板
在Alphago与韩国围棋选手李世石对战获胜三年过后,一些迹象逐渐显现,张钹院士认为到了一个合适的时点,并接受了此次的专访。
深度学习目前人工智能最受关注的领域,但并不是人工智能研究的全部。张钹认为尽管产业层面还有空间,但目前基于深度学习的人工智能在技术上已经触及天花板,此前由这一技术路线带来的“奇迹”在Alphago获胜后未再出现,而且估计未来也很难继续大量出现。技术改良很难彻底解决目前阶段人工智能的根本性缺陷,而这些缺陷决定了其应用的空间被局限在特定的领域——大部分都集中在图像识别、语音识别两方面。
同时,在张钹看来,目前全世界的企业界和部分学界对于深度学习技术的判断过于乐观,人工智能迫切需要推动到新的阶段,而这注定将会是一个漫长的过程,有赖于与数学、脑科学等结合实现底层理论的突破。
作为中国少有的经历了两个人工智能技术阶段的研究者,张钹在过去数年鲜少接受采访,其中一个原因在于他对目前人工智能技术发展现状的估计持有部分不同看法,在时机未到之时,张钹谨慎的认为这些看法并不方便通过大众媒体进行传播,即使传播也很难获得认同。
一、“奇迹并没有发生,按照我的估计,也不会继续大量发生”
经济观察报:您是如何估计和评价目前人工智能发展的现状?
张钹:这一轮人工智能热潮是本世纪初兴起的。首先是出现在学术界。学术界过去对人工智能是冷遇的,但是多层神经网络的出现带来了一些改变,神经网络的理论在上世纪50年代就有了,但是一直处于浅层的应用状态,人们没有想到多层会带来什么新的变化。
真正引起大家注意的就是2012年斯坦福的实验(注:2012年谷歌和斯坦福利用多层神经网络和大量数据进行图像识别的实验),过去实验的图像样本数最多是“万”这个级别,斯坦福用了1000万,用多层神经网络来做,结果发现在人脸、人体、猫脸三个图像类别中,这个模型的识别率大概有7%-10%的提高。
这给大家非常大的震动,因为通常识别率要提高1%要做好多努力,现在只是把层数增加了,竟然发生两大变化,一个是识别率提高这么多;第二个是能处理这么大数据。这两个变化给大家非常大的鼓舞,何况在2012年之前,人工智能没有解决过实际问题。
经济观察报:这种突破的原因是什么?
张钹:现在分析下来是三个原因,大家也都非常清楚了,一个大数据、一个是计算能力、一个是算法。认识到之后,一夜之间业内业外对深度学习都非常震动,然后就发生了三件历史性的事件。
第一件事是2015年12月,微软通过152层的深度网络,将图像识别错误率降至3.57%,低于人类的误识率5.1%;第二件事,2016年微软做的语音识别,其词错率5.9%,和专业速记员水平一样;第三件事:Alphago打败韩国围棋选手李世石。
通过人工智能,利用深度学习、大数据这两个工具,在一定条件下、一定领域内竟然能够超过人类,这三件事情给大家极大的鼓舞。
特别是对于业外的人,都认为我只要掌握了大数据,利用深度学习说不定还能搞出奇迹来,于是大家做了很多很多预测,比如在多短时间内计算机会在什么事情上能超过人。
但实际上,在这个之后,奇迹并没有发生,按照我的估计,今后也不会大量发生。准确一点说,今后或许会在个别领域取得进展,但是不会像之前预计的那样全面开花。特别是中国市场乐观的认为“中国市场大、数据多,运用又不受限制,所以将来奇迹一定会发生在中国”。
结果很多企业在做的时候发现,不是那么回事。从目前的情况来看效果最好的事情还是这两件:图像识别、语音识别。我看了一下,中国人工智能领域20个独角兽30个准独角兽企业,近80%都跟图像识别或者语音识别有关系。
经济观察报:为什么会出现这样的情况?或者说在这么长时间后,我们对人工智能目前能做什么有一个清晰的认识了吗?
张钹:人工智能在围棋上战胜人类后产生了这种恐慌,“大师才能做的事,人工智能居然能做,我的工作这么平凡,肯定会被机器所替代”。这里需要考虑一下它的局限性,我一直在各种各样的会上谈到不要过于乐观。
人工智能能做的那三件事(语音识别、图像识别、围棋)是因为它满足了五个条件,就是说只要满足了这五个条件,计算机就能做好,只要有任何一个或者多个条件不满足,计算机做起来就困难了。
第一个是必须具备充足的数据,充足不仅仅是说数量大,还要多样性,不能残缺等。
第二个是确定性。
第三个是最重要的,需要完全的信息,围棋就是完全信息博弈,牌类是不完全信息博弈,围棋虽然复杂,但本质上只需要计算速度快,不要靠什么智能,可是在日常生活中,我们所有的决策都是在不完全信息下做的。
第四个是静态,包括按确定性的规律演化,就是可预测性问题,在复杂路况下的自动驾驶就不满足这一条;实际上它既不满足确定性,也不满足完全信息。
第五个就是特定领域,如果领域太宽他做不了。单任务,即下棋的人工智能软件就是下棋,做不了别的。
经济观察报:就是说在满足这五个条件的前提下,目前的人工智能是胜任部分工作的?
张钹:如果你的工作符合这五个条件,绝对会被计算机替代,符合这五个条件的工作特点很明显,就是四个字“照章办事”,不需要灵活性,比如出纳员、收银员。如果你的工作富有灵活性和创造性,计算机绝对不可能完全代替,当然部分代替是可能的,因为其中肯定也有一些简单和重复性的内容。如果认识到这一条就会认识到人工智能仍处于发展阶段的初期。不是像有些人估计的那样“人工智能技术已经完全成熟,而进入发展应用的阶段”。
三、“我们培养不出爱因斯坦、培养不出图灵”
经济观察报:一种观点认为中国有更多的数据和更多的工程师,这种规模能倒推带来基础研究层面的突破或者决定技术的路线?
张钹:这里混淆了好多概念,科学、技术、工程。科技水平需要三个标准来衡量,一个是科研水平、一个是技术水平、一个是工程实践能力,或者产业化能力。
我们中国什么情况?从工程角度来看,在一些领域我们“接近世界水平”;技术水平我用的词是“较大差距”,因为不少东西还是外国会做我们不会做;科研究领域我用的词是“很大差距”,科学研究就是原创,实际上,所有人工智能领域的原创成果都是美国人做出来的,人工智能领域图灵奖得主共十一人,十个美国人,一个加拿大人。
经济观察报:数据显示中国在人工智能领域的论文发表量和被引用次数都已经进入前列位置,这是否说明中国人工智能科学研究领域的突破?
张钹:如果单从论文来看研究水平,基本反映在三个指标上:数量、平均引用率、单篇最高引用率。拿人工智能来讲,中国研究者论文的数量和平均引用率都还不错,但是单篇最高引用率和世界差距就很大,而这个指标恰恰是反映你的原创能力。
也就是说深度学习这个领域,我们的平均水平达到世界水平了,但是最高水平和世界差距还是很大的。不过还是要肯定的,我们应用上发展比较快。
经济观察报:清华在这方面有什么优势吗?
张钹:在人工智能重要的会议杂志上,这十年期间论文数量、平均质量CMU(美国卡耐基梅隆大学)排第一,清华大学排第二。我们培养的人,在计算机这个领域,清华的本科、博士生都是世界一流的。
目前我们的跟踪能力是比较强的,一旦有人起个头,我们能迅速跟上去。但是很可惜,我们缺乏顶尖人物,也培养不出顶尖的人才,如爱因斯坦、图灵等。
我个人认为原因之一,可能与中国的文化有点关系,我们的从众心理很严重,比如在人工智能领域,深度学习很热,发表的论文作者中几乎70%是华人,但是其他非热门领域,包括不确定性推理、知识表示等几乎没有华人作者。这就是从众扎堆,不愿意去探索“无人区”。
当然也不要着急,科学研究本来就是富人干的事情,是富国干的事情,我们还是发展中国家,科学研究起点比较低,暂时落后是难免的,我们会迎头赶上。
四、“低潮会发生,但不会像过去那样”
第三,我们如何走向真正的人工智能?
上一页:全球科创中心发展的新动向及其启示
下一页:中国科技体制的演变