郑南宁院士政治局人工智能讲课全文

添加时间:2025-05-29 点击次数:785

 中共中央政治局4月25日下午就加强人工智能发展和监管进行第二十次集体学习。中国工程院院士、西安交通大学教授郑南宁同志就这个问题进行讲解,提出工作建议。以下为报告全文:

题目:机器行为与具身智能

大家好,今天我报告的题目是“机器行为与具身智能”。

一、引言

首先,我们来看一个相对简单的十字路口场景,场景中有行人、非机动车和机动车。十字路口的交通场景是不可预测的,但场景中的每个对象(Object)通过直觉的判断和对相互之间行为关系的理解,形成了一个相互关联的稳定系统。人在这些场景中能够迅速理解和判断各个对象在空间及其行为的关联性。而自动驾驶也必须能够抽象和表述这种关联性,才能做出准确的判断。事实上,我们无法让机器基于规律对交通场景的动态变化进行事先编码,我们需要研究在这种交互场景中,多个自主体的自适应行为。

举例来看,在F1比赛中,工作人员利用团队协作可以迅速完成车辆轮胎的替换工作。如何利用机器人集群协作完成某项任务并给出科学的解释,是一个值得探讨的问题。

二、机器行为模仿与解释

解释行为是一个比产生行为更为困难的任务,因为几乎人类所有的行为都是从环境中学来的,即刺激反应的结果。图灵机可以以一种无法与人类区别的方式活动,但这种行为模仿并不足以模拟人的智能,因为两者是完全不同的问题。解释必须尽可能清晰地给出潜在的概括,并将它们与某些普遍的原理联系起来,这就是认知过程的理解。

从人工智能技术的发展来看,我们可以把人工智能技术的发展分为如下阶段:

1. 专家学习系统:将领域知识和规则交给机器去搜索。

2. 特征工程:将事先定义的特征和答案交给机器去学习。

3. 深度学习:将原始数据和标签交给机器,利用深度神经网络让机器自动学习特征。在这一阶段,人工智能在语音和图像识别与分类能力方面取得了惊人的发展,甚至超过了人类。

4. 通用人工智能:人类只需要将任务和目标交给机器,机器就可以像人类一样感知和理解世界,实现人与人之间或社会与物理世界的自然交互。通用人工智能理论上具有自我意识、自主思考、学习计划、解决问题以及理解复杂概念的能力,可以在新的未曾遇到的情景下适应并执行任务。这需要广泛的背景知识和常识,以及抽象思维和判断等人类智能的所有关键特征,是一个充满不确定性的未来目标。

三、机器行为面临的挑战

人工通用智能不仅在技术上面临重大挑战,还面临着道德伦理、社会和法律等一系列问题。研究复杂动态不确定环境中的机器行为,存在两个基本问题:

1. 条件问题:不可能枚举出一个行为的所有先决条件。

2. 分枝问题:不可能枚举出一个行为可能产生的所有隐性结果。

传统的人工智能基本理论框架建立在演绎逻辑和语义描述与形式化方法的基础上,形式化的方法不可能为所有的对象或行为建立模型。

机器行为研究面临的挑战是如何使人工智能系统具有合作性的行为。

德国心理学家设计了一个儿童心理学实验:一位一岁半的儿童和妈妈坐在房间角落,一位成年人走进房间想打开柜门,却一遍遍撞击柜门。尽管没有人直接向孩子求助,也没有人发出指令,但孩子却摇摇晃晃走过来,帮助成年人打开了柜门。这个实验试图证明孩子可以自发地帮助别人,但对人工智能来说,这是一个重大挑战:我们能否通过理解孩子的脑内所想,让机器人也具备这样的智能性、灵活性与合作性行为?

另一个实例是,给出一段西安绝句“海棠不惜胭脂色,独立蒙蒙细雨中”,让计算机语言理解程序和人分别从图像数据库中找出最贴切的图像。计算机找出了海棠上挂满雨滴的图像,而人却给出了一位少女在细雨中行走的图像。人类将少女比作海棠,通过自身的认知去欣赏诗歌。这说明许多重要的AI应用,例如机器视觉和自然语言理解,需要大量对世界的认识信息。计算机需要掌握知识,但如何更有效地将知识传授给机器人,依然是我们面临的一大挑战。

四、机器行为的研究范围

诺贝尔奖获得者西蒙教授在《人工科学》中指出,自然科学是关于自然体和自然现象的科学知识,而人工科学是关于人工物体和人工现象的知识。如今,智能机器广泛应用于人类社会的各个层面,机器行为研究关注的是智能机器,而非传统机械。其研究范围包括:

1. 机器行为生成的人工设计:智能体如何凭借经验产生行为。

2. 机器行为的可解释性:智能体如何根据场景响应机器行为。

机器行为一旦失去监督,可能带来潜在危害,这些问题与智能体和人工智能行为的信任密切相关。诺贝尔奖得主、荷兰动物学家Tinbergen提出,要全面理解一个演化出来的特性,需要回答四个问题:

1. 行为生成的机制:智能体生成行为的机制基于其算法和执行环境的特点,利用可解释性技术可以理解特定行为模式背后的机制。

2. 行为的发展:智能体的行为是随着时间推移而发展的,需要研究机器是如何获得特定行为的。行为发展可以是工程选择的结果,也可能是来自智能体的经验。

3. 行为的功能:行为分析需要了解特定行为如何影响智能体全生命周期的功能,研究行为对智能体特定功能的影响。

4. 行为的进化:智能体容易受到进化历史和与其他智能体交互的影响,研究机器行为需要关注智能体的进化。

智能个体获得特定行为的三个基本途径:

1. 人类通过算法直接赋予机器行为的发展。

2. 利用特定的交互训练,刺激和塑造机器行为。

3. 机器通过自身的经验获得某些行为,例如通过记忆或强化学习等方式自主获得某种行为的能力。

机器行为的进化过程中,机器行为可以在发展中与所处环境和人不断交互,朝着环境和人特定的方向进化。机器的进化可以突破生命体的局限性,可进化的机器行为可以传播至群体广泛的机器行为存在,也可能受到某些限制,阻止其传播,机器可表现出非常不同于有机进化的轨迹。例如,进化后的无人驾驶算法可以共享至无人驾驶汽车群体,实现行为能力的传播。

人与智能机器的行为关联:

1. 机器塑造了人类行为:在社会系统中引入智能机器可以改变人类行为的方式,智能机器具有改变社会结构的潜力。

2. 人类塑造了机器行为:人类通过对人工智能系统进行主动输入或被动行为观察的训练来塑造机器行为,使用算法直接改变机器的行为。

3. 人机混合协同行为:大多数人工智能算法在复杂的混合系统中与人类共存的领域发挥着重要作用,如何分析和刻画这类复杂系统中人机交互的属性和行为,包括合作、竞争和协调,都是至关重要的问题。

五、具身智能和行为生成

具身智能是一种机器自主感知环境、学习和理解行动的能力。从生物进化的角度来看,地球上所有智力活动都是生物通过自己的身体与环境交互后,通过自身学习与进化遗留下来的智力遗产。智能是具身化和情境化的,具身智能强调智能生物的智能化程度和它的身体结构存在着很强的相关性。身体不是等待加载算法的机器,而是身体本身应该参与算法的进化。

非具身学习和具身学习的对比:

• 非具身学习:通过“大模型无监督预训练+小样本有监督微调”范式训练神经网络,训练得到的深度学习模型可以直接部署到不同的硬件环境,即算法的学习独立于硬件与环境,性能表现完全取决于模型的泛化能力。

• 具身学习:通过在虚拟环境中训练大模型得到常识表征,在具体场景中通过强化学习来完成模型的进化,模型可以在特定的硬件和环境中完成自主的适配。

由于大模型利用了超大规模的训练数据,并且包含大量参数,使得它具备了超强的泛化能力与优秀的应用性能。大模型的具身智能行为生成可以分为两大部分:

1. 人机交互:人通过自然语言或图文信息的形式,将任务需求输入到多模态大模型中,模型对不同形式的输入进行特征嵌入后,完成任务理解和概念推演,并生成知识和决策,最后由机器人生成面向任务指令的相应行为。

2. 系统与环境的交互:机器人首先利用自身传感器,完成对情境的具身感知,然后根据大模型的学习结果对情境产生行为,最终完成行为的输出。

六、基于表征学习与因果推理的具身智能计算框架

要想使机器具有类人的认知能力,首先要建立事件模型,将物体、事件、事实等知识进行有效表征,进而构建一个持续学习的系统。在解决一个具体任务时,机器根据感知数据、意识先验、表征学习、知识库进行推理,寻找完成任务的最优策略。

意识先验的概念比较抽象。当你处在一个情景中,试图去理解它时,你会意识到某些现实层面的情景或过去的经历。意识先验是在原始输入和某些更高级表征基础上形成的抽象层次。

七、动态开放环境中的人机协同具身智能

为了让具身智能表现得更像人类智能,还需要在动态开放的环境中强化人机协同。以往的运动策略学习倾向于把人排除在外,仅由试错、搜索获得尽可能大的长期累积回报的策略,无法适应开放动态的环境。

而人在回路的决策学习,由任务、目标引导搜索,实现行为决策的类人化。此外,还可以通过嵌入式视觉学习、模仿学习和交互学习,引入人的作用。动态开放环境中人机协同具身智能的一种基本框架是:人在回路的人机协同决策可以使具身智能向人类学习。例如,自动驾驶系统通过行为克隆向人类驾驶员学习,自动驾驶系统通过10个小时的学习已具有基本的驾驶行为,但仍然无法避障和应对突发事件。

八、自动驾驶面临的挑战

自动驾驶是开放环境中一类重要典型具身智能系统,在复杂交通环境下,自动驾驶安全要有可靠的驾驶行为。自动驾驶面临以下挑战:

1. 周密感知:需要解决复杂交通场景中的“周密感知”,无论天气或照明情况如何,必须在所有条件下检测道路特征。

2. 预行为理解:需要进行“预行为”的理解,因为人类驾驶员都是根据预行为传达行驶意图。

3. 意外遭遇应对:需要对“意外遭遇”做出应对,而简单的基于规则的自动驾驶不可能提前为每个场景编码。

4. 网络安全:如软件的漏洞或黑客的恶意行为等。

九、自动驾驶行为生成

自动驾驶行为生成的过程如下:

1. 导航路径生成:系统结合经验与常识、场景理解以及交通态势评估,并利用模型对结构化道路场景和非结构化道路场景进行预训练,生成导航路径。

2. 运动规划:基于具身智能完成目标状态采样、待选运动路径生成和最优运动路径选择,进行运动规划,最后生成合理的、可执行的驾驶行为。

重点讨论自动驾驶行为决策:将思维抽象为符号计算对人工智能的发展产生了重大推动作用,但为所有的交通对象建立模型是不可能的。许多交通场景的复杂性和动态性,并不都是可观测和可控的,行驶过程中对异常情况的处理能力,是无法通过事先大量样本训练得到的,而且也无法获得大量的负样本(如交通事故)。人类驾驶员开车是将车外的无穷状态空间约简为动态变化的“可行驶”的“二域状态空间”,自动驾驶行为决策就是要寻找一个可行驶区域。从认知层面要解决的问题,就是如何把复杂未知的现实世界,变化成有限空间环境的语义理解,我们称之为一种直观的理解。

十、自动驾驶的认知表征

场景感知与情景认知的区别:

• 场景:某个交通场合在一个特定的时间和空间中的具体情景或景象,通过传感器数据获得。

• 情境:某一段时间和空间中许多具体情形的概括,情境的“境”是指构成和隐含在场景中相互交织的因素及其相互之间的关系。情境计算是对场景中各个对象在空间的行为交互关系的解释,交通场景中各种物体或对象的空间关系和行为描述在自动驾驶中非常重要。

如何发展一种具有进化的、自主学习的自动驾驶系统?

需要从认知的角度去了解人类驾驶员是如何注意并获取交通环境信息的。人类驾驶员对交通场景的理解是在记忆和先验知识的基础上进行的模式匹配。自动驾驶算法需要在一定程度上引入人类对交通场景认知的加工机制,人类对变化非常敏感,例如颜色、纹理、大小、位置、运动等突然变化对注意力影响最大。注意机制已经成为构建自动驾驶AI架构的灵感来源。

产生驾驶行为背后的内部表征问题:

人类驾驶员在驾驶过程中是将车窗外无穷状态空间约简为动态变化的“可行驶”和“不可行驶”的“二域状态空间”,并根据常识和交通规则,以及对交通场景的感知来产生相应的驾驶行为。因此,自动驾驶需要对交通环境进行分层的认知表征,包括空间定位层、行为模型层、知识策略层和任务驱动层,这样可以从认知的层面将复杂、未知的现实世界变换成有效的语义推理。

十一、自动驾驶的认知地图构建

构建自动驾驶认知地图需要包括车辆、交通标识、障碍物、行人等构成的可行驶区域的基本属性。同时要有递归网络所学习到的关于预注意机制、驾驶意图等高级认知属性,把车辆当前状态与交通知识作为认知地图的一部分。要根据场景动态的变化,形成实践上的认知地图的训练。依赖认知地图可以使自动驾驶系统从类人的角度去理解交通场景正在发生的动态随机变化。

这里进一步给出一种具有选择性注意机制的自动驾驶认知计算实现架构。在这个计算架构中,利用卷积神经网络提取场景的显著性空间特征,这些特征与先验知识相结合,形成一种对时间可视化认知地图,通过长短期记忆的注意机制,界定认知地图中物体间的关联,然后通过价值迭代模型将对环境的认知映射到行为空间,给出行驶决策。

十二、自动驾驶的仿真测试

仿真测试是自动驾驶重要的关键技术之一。自动驾驶汽车在大规模商业化应用前需要进行大量的测试。相关研究报告指出:在不犯错误的情况下,自动驾驶汽车需要行驶4.4亿公里,才能证明其在车祸致死率和人类驾驶员的水平相当。假设由100辆自动驾驶汽车,每天测试24小时,一年测试365天,测试平均时速60公里每小时,需要耗时8.37年。相当于一辆车在地球与月球之间往返572次,显然采用实际道路测试将耗费大量时间。而仿真测试可以提供一种高效率、低成本的自动驾驶测试。

作为自动驾驶重要的关键技术,仿真测试需要关注的一大挑战为异常交通场景的感知与处理。由于异常交通场景出现概率低、缺乏测试数据,因此需要利用图形学、计算机视觉生成多样化测试数据,在仿真环境中对自动驾驶车辆进行充分快速的测试验证。

这里给出了一种基于大模型的自动驾驶仿真技术的基本框架,应用机器学习可以生成多样性交通场景来评价自动驾驶系统在不同交通场景下的驾驶性能,如安全性、舒适性、协调性,以及算法的可靠性,以及是否遵守相关法律法规。该基本框架由数据集包括注入的真实传感器数据、机器场景描述、测试场景分类、典型场景选择与表征、典型场景生成,包含一些副样本等五大部分组成。

十三、总结

我们团队开展自动驾驶研究二十余年,取得了很大的进步,但实现完全自动驾驶依然是一个令人兴奋而又望而生畏的艰难挑战。最后给出一个移动智能体在开放环境下基于视觉和激光雷达生成导航路径的短视频。

今天我的报告就到这里,谢谢大家!

---

以上是郑南宁院士报告的完整内容整理,涵盖了机器行为与具身智能的核心观点、自动驾驶的挑战与解决方案,以及仿真测试的重要性。