新闻动态
人机对抗智能技术

浏览次数:485 发布时间:2020-04-22 08:39:03

 摘 要 :人机对抗作为人工智能研究的前沿方向, 已成为国内外智能领域研究的热点, 并为探寻机器智能内在生长机制和关键技术验证提供有效试验环境和途径. 本文针对巨复杂、高动态、不确定的强对抗环境对智能认知和决策带来的巨大挑战, 分析了人机对抗智能技术研究现状, 梳理了其内涵和机理, 提出了以博弈学习为核心的人机对抗智能理论研究框架; 并在此基础上论述了其关键模型: 对抗空间表示与建模、态势评估与推理、策略生成与优化、行动协同与控制; 为复杂认知与决策问题的可建模、可计算、可解释求解奠定了基础. 最后, 本文总结了当前应用现状并对未来发展方向进行了展望.



1、引言


人类社会的发展史就是自身矛盾不断变化演进的历史. 比较、对比、竞争、斗争, 各种不同形式的对抗广泛存在于人类社会中的经济、政治、金融和生活等各个领域和行业之中. 对抗双方是人类不同的个体与个体、个体与群体以及群体与群体之间, 对抗贯穿于整个人类文明发展历史当中, 也在不断地促进人类智能的提升和进化. 随着社会不断发展和技术不断进步, 对抗的复杂度, 如速度、强度等都在呈指数级别增长. 人类的感知和决策能力由于受自身生理和心理方面的限制, 面对复杂、动态、对抗环境下智能认知与决策需求, 迫切需要以机器为载体的人工智能技术的辅助与支撑.


人工智能技术的发展通常可分为计算智能、感知智能和认知智能3个阶段[1]. 传统的人工智能以强大的计算能力为主要特征, 其特点是快速计算和记忆存储能力大幅超越人类. 近年来, 以机器学习为代表的人工智能技术得到了飞速发展, 使得机器获取、处理和分析信息的水平得到了大幅提升. 感知智能算法在语音处理、图像识别、文本翻译等诸多问题中都已经达到甚至局部超过人类的感知能力[2~4]. 在认知决策领域, 以AlphaGo [5]、冷扑大师[6] 等为代表的智能博弈算法在边界确定、规则固定的人机对抗问题中已经战胜了人类顶级专业选手, 为人工智能技术由感知智能向认知智能跨越式发展带来了新的曙光.


人工智能从诞生之始就以对抗人类智能为衡量准则(著名的图灵测试) [7]. 作为人工智能研究的前沿方向, 人机对抗技术一直是国内外人工智能研究的热点, 以人机对抗为主要形式的人工智能研究为探寻机器智能的内在生长机制和关键技术原理提供了一个极佳的试验环境和验证途径. 基于人类现有的知识和智能水平, 通过研究和实现新型的智能学习算法, 使得机器智能在可控的范围内不断接近、达到甚至超过人类的智能水平. 整个过程不仅能够让机器更加智能地为人类服务、将人类从一些繁复复杂的任务中解脱出来, 而且人类也能够借鉴机器智能的发展过程, 提升自身的智能水平, 更深刻地理解和掌握智能的内在本质和产生机理, 进而推动整个社会由信息化向智能化发展.


2、发展历史


从1936年人工智能之父阿兰·图灵提出著名的 “图灵测试” 之后, 人和机器之间进行智能对抗就成为了衡量机器智能发展水平的最重要标准[8]. 从实现最初的简单智能到不断进化成更为复杂的智能, 对抗贯穿于人工智能中计算、感知和认知的3个阶段(图1), 从某种意义上讲, 就如人类与自然环境的对抗促进了人类的进化, 机器与人的对抗也必将让机器智能不断发展进化.


图 1  人机对抗的发展历史


计算智能主要以科学运算、逻辑处理、统计查询等形式化规则化运算为主要任务, 表现是能存会算会查找, 20世纪50年代, 计算机的发明和普及为人工智能的发展注入了最初的驱动力, 使得计算机很快在计算速度和精度上超过了人类, 标志性事件就是1997年IBM的深蓝计算机大战国际象棋世界冠军卡斯帕罗夫(Kasparov). 深蓝计算机的国际象棋AI 程序基于人类棋手的经验, 总结了大量规则, 借助于计算机强大的计算和搜索能力战胜了人类国际象棋冠军.


感知智能主要以语音识别、图像理解、文本翻译等为主要任务, 表现是能听会说、能看会认. 21世纪伊始, 以深度学习为代表的机器学习技术在这些任务中取得了巨大突破[9, 10], 标志性事件包括微软公司在2008年前后推出的基于深度学习的语音识别引擎大幅降低了识别错误率[2], 2012年的ImageNet竞赛中基于深度学习的图像分类模型以绝对优势取得第1名[3], 以及谷歌公司推出的高精确度实时语言翻译系统[4]等.


认知智能主要以理解、推理、思考和决策等为主要任务, 表现是能理解、会思考决策. 虽然计算机在认知智能方面目前才刚刚起步, 还未达到人类的水平, 但是认知智能的应用前景广阔, 影响深远, 因此认知智能相关的研究如火如荼[5, 6, 11, 12]. 近几年来, 以谷歌旗下的DeepMind公司为代表, 在认知决策智能方面取得了一些突破性进展, 其中标志性进展就是AlphaGo智能围棋博弈程序[5]在2016 年4 : 1 战胜人类围棋冠军选手李世石, 标志着人工智能的发展重点逐渐由感知智能向认知智能过渡. 2017 年, 加拿大阿尔伯塔大学(University of Alberta)和美国卡内基梅隆大学(Carnegie Mellon University) 提出的德州扑克AI 算法[5, 6], 在1 对1无限注德州扑克中, 击败了多名顶尖的职业德州扑克选手. 2018年OpenAI公司开发的OpenAI-Five智能程序, 以2 : 1击败了由5名人类职业选手组成的队伍, 2019年谷歌AI 程序AlphaStar以10 : 1 战胜人类职业选手. 鉴于决策等认知智能的重要性, 国内外高科技公司和机构围绕着博弈对抗进行了大量布局, 以此作为发展通用人工智能的路径之一. 2016年谷歌发布了基于星际争霸的游戏AI训练平台[13], 同年OpenAI公司发布了通用人工智能训练测试平台Universe, 2017年Facebook公司开源了游戏学习平台[14], 国内腾讯公司在2017年全球合作伙伴大会上发布了AI战略, 围绕游戏、社交、内容3大场景, 并将博弈对抗AI做为第重要板块.


3、内涵及机理


虽然人机对抗智能技术获得极大的关注, 并在不同应用领域展现出应用前景, 但其理论及相关技术目前还没有一个系统性的描述, 本文将从内涵、机理对其进行阐述并在此基础上相关模型及关键技术.


3.1  人机对抗内涵

人机对抗研究计算机博弈中机器战胜人类的方法, 其更一般性的含义是指在强对抗博弈环境下, 以人机对抗为主要形式研究机器智能战胜人类智能的内在机理和技术原理, 它是智能领域研究的核心方向, 通过人、机和环境之间的交互学习, 探索巨复杂、高动态和不确定的强对抗环境下机器智能快速增长的内在机理和途径, 以期最终达到或者超过人类的智能水平. 在人机对抗研究体系中, 人机对抗是促使机器智能快速增长的主要方式, 在人机对抗过程中, 人和机器之间相互借鉴学习. 根据不同的应用, 人机对抗技术又可以表现为人机协同、人机融合, 以至达到最终的人机共生. 人机对抗的能力增强表现为首先从特定领域战胜单个人, 再到战胜群体, 最后在该领域超越整个人类群体的智能水平.


总之, 人机对抗是以机器和人类对抗为途径, 以博弈学习等为核心技术来实现机器智能快速学习进化的研究方向. 作为“图灵测试”的重要手段, 人机对抗是验证机器智能的“试金石”, 为探寻机器智能的内在生长机制和关键技术的验证提供有效试验环境、评价标准, 具有重要科学研究意义和应用价值.


3.2  人机对抗机理

人机对抗机理研究对抗各要素及其相互联系, 以及相互作用的运行规律与原理. 要素是最小的组成单元, 人机对抗涉及的要素包括人(机器的对手)、机器(对抗的AI)和环境(对抗的规则和条件等的集合体), 我们将之抽象为人、机、物3要素. 在强对抗环境下的人机对抗过程中, 对抗使博弈这个概念进一步扩展. 人或机器去感知和适应环境的过程也是人或机器与环境进行博弈对抗的过程. 由于环境本身的高度复杂性、动态变化性和随机不定性, 在与之博弈的过程中, 人或机器需要对它的静态特性进行建模, 同时还需要对它的动态特性进行学习.


根据人机物3要素分析方法, 3要素相互作用分别形成一元博弈、二元博弈和三元博弈. 一元博弈是指博弈中只有一个要素变化, 而其他两个要素固定的博弈过程. 最常见一元博弈过程就是环境和人都固定的机机博弈. 二元博弈是指博弈中有两个要素变化的博弈过程, 包括人机博弈、机物博弈和人物博弈. 机物博弈可以理解机器如何去对环境的动态属性进行建模并学习环境的动态变化性. 而三元博弈是指博弈中3个要素都发生变化的博弈过程, 可进一步分为有限边界的三元博弈和开放环境的三元博弈. 随着博弈中变化要素数目的增多, 博弈就愈加复杂.


博弈思想也存在于机器学习过程中, 传统的监督学习从给定的训练数据集中学习出一个函数(模型参数), 当新的数据到来时, 即根据这个函数预测结果. 其中模型的训练过程可以理解成单个模型依照给定环境(数据集)不断通过博弈调整模型参数的过程, 近年来基于产生式模型和判别式模型博弈的对抗生成对抗网络(generative adversarial networks, GAN)也成为继深度学习之后的人工智能研究热点[15]. 谷歌DeepMind 公司设计的星际争霸游戏AI 程序AlphaStar中使用的基于种群的强化学习技术包含了500多个模型之间的相互博弈学习.


人机对抗智能的科学问题可概括为博弈学习的可建模、可计算与可解释. 具体来说, 可建模是指博弈过程可以基于数学模型进行抽象或者表征学习, 它贯穿于人机对抗的整个过程. 以AlphaGo智能程序[5]为例, 围棋博弈被建模为完全信息静态博弈, 并使用蒙特卡洛(Monte Carlo)树搜索进行博弈求解, 而Libratus智能程序中, 德州扑克博弈被建模为不完全信息动态博弈, 并使用反事实后悔值最小化方法进行博弈求解. 可计算是指博弈行为模型可以进行计算与学习, 并能在此基础上进行大幅优化, 它为人机对抗策略生成及使用提供了保障. 以Libratus程序为例, 最初版本在与人对抗时需要使用匹兹堡(Pittsburgh)超级计算机进行计算, 而后改进版本Modicum利用深度有限求解方法优化其计算性能, 实现了在普通笔记本上就可以与人进行博弈[16]. 可解释是指博弈行为的计算结果可以解释, 它为博弈过程中第三方的介入提供了足够可以理解的信息. 目前以深度学习为代表的人工智能模型可解释性较差, 已有不少研究尝试从特征可视化[17]、损失界面分析[18]等不同角度对深度学习模型进行分析, 而可解释性对以认知决策为重点的人机对抗技术更为关键, 其研究为进一步的人机混合智能提供了基础保障.


4、人机对抗模型及关键技术


和感知智能有所不同, 人机对抗通常关注更为复杂的时序决策等认知智能, 对其过程建模是一个高度复杂问题, 因此认知决策建模是整个人机对抗中的核心关键环节. 已有学者从不同领域对认知决策过程进行建模, 其中Simon等[19]从管理学角度提出的决策环理论将其归纳为“情报收集-方案设计-评价方案-实施方案”, 经典指挥控制模型中的SHORE模型则称其为“激励-假设-选择-响应”[20], 著名的OODA环模型将其表示为“感知-判断-决策-行动”[21], 我国军事指挥专家胡晓峰[22]则将其归纳为“态势获取-态势理解-态势预测-决策-行动”.


本文将面向强对抗环境下的人机对抗决策流程归纳为感知、推理、决策和控制. 感知是基于大量环境数据, 对态势的判读和理解, 例如目标聚类、威胁评估等. 推理是在态势感知基础上, 对态势的深度分析、认知和预测, 包括对意图的判定, 对抗结局的预测等. 决策和控制是在感知和推理之后的策略决策和方式实施等. 整个决策环路过程在局部和整体上都不断进行循环迭代, 从而实现认知决策的迭代增强, 对抗能力的自主提升. 本文提出的人机对抗模型具有一定的普适性. 美军在深绿计划中提出OO-DA模型[23] 和在第三次抵消战略中提出的OPA (observe-prediction-act) [24] 可以看成是本文模型的一些特例和变种. 本文将人机对抗关键技术归纳为对抗空间表示与建模、态势评估与推理、策略生成与优化、行动协同与控制4部分; 通过对抗态势判读理解、认知预测、策略决策和行动实施, 局部整体不断循环迭代增强, 自主提升对抗能力. 人机对抗涉及的关键技术如图2所示.


图2 人机对抗的过程建模和关键技术


4.1  对抗空间表示与建模

构建有效的知识表示模型, 准确刻画对抗空间的决策要素构成、属性特征及要素之间的交互关系, 是实现人机对抗的基础. 巨复杂、高动态、强对抗环境具有决策要素海量高维、要素影响高度耦合、决策关键信息不完全等特性, 使得对抗空间的定量表示极富挑战, 包括: (1) 超高维度决策要素及其高度耦合的关联影响, 使得对抗空间的特征表示、提取、学习和预测十分困难; (2) 对抗双方行为与场景特征高度依赖, 对抗空间表示需要具备跨场景、可迁移的能力; (3) 对手信息缺失甚至带有高度欺骗性, 如何表征缺失及不可靠的对手信息, 依据不完全信息推理整体态势, 也是极富挑战性的问题.


有效的知识表示模型如知识图谱是研究对抗空间表示与建模的主流研究方法[25]. 同时, 基于模式识别的特征表示方法如多通道图像的对抗空间张量表示方法也被广泛采用[5, 11]. Racaniere 等[26] 使用序列预测对环境进行建模, 并通过前向推演来改进策略, 提高了算法的性能和鲁棒性. Huang等[27]使用自举法来衡量环境模型的可信度, 并增加对模型预测可信度低的状态的探索次数, 从而有效减少了模型的潜在误差. 这方面可开展的研究包括: (1) 对抗空间要素实体-关系表示, 研究对抗空间中各类不同实体、实体属性及其交互关联关系, 构建决策要素的表示模型; (2) 对抗空间特征张量表示学习, 分析实体属性关系耦合和结构拓扑对个体及群体对抗能力的影响, 构建可解释的对抗空间的高维张量描述; (3) 层级化聚合演算规则建模, 融合经验表示与数值计算, 定义多因素、层级化的对抗态势和对抗能力聚合演算规则, 形成环境-我方-对手多元耦合的可计算表征体系; (4) 基于异构信息网络的抽象通用空间表示, 基于能力演算规则, 研究对抗要素的抽象态势表示, 减轻对抗场景依赖带来的噪声和数据稀疏影响.

战。


4.2  对抗态势评估与推理

对抗态势是指对抗各方通过实力对比、调配和行动等形成的状态和趋势[28], 态势的评估与推理为后续对抗策略生成与优化提供了依据. 面对人机对抗空间各种要素非线性的交叉影响, 态势评估与推理面临着以下挑战: (1) 训练态势认知和预测模型的高水平对抗数据往往非常有限; (2) 对手信息往往是凌乱的、不完全的, 仅依据对手部分信息进行整体局势评估准确性较差; (3) 复杂对抗环境导致可用于态势评估的信息众多, 难以有效进行融合以形成多角度层次化态势.


针对挑战, 目前国内外已开展相关研究, 谷歌DeepMind公司的研究人员[5, 11] 基于自我博弈技术在围棋对抗过程中产生数据以进行估值网络的训练. Hu等[29] 借助于深度神经网络学习状态与动作之间投影, 进而实现对手信息估计. Lowe等[30] 将其他智能体的策略估计嵌入到整体的强化学习过程中, 可以实现协作与对抗环境下其他智能体策略的有效估计. Shen等[31, 32] 提出了深度态势匹配算法, 可以有效识别态势之间的匹配度. 此类可开展的研究包括: (1) 高质量对抗数据的生成, 通过自主博弈或者生成式对抗网络[15] 等方法生成用于人机对抗建模与分析的高质量人机对抗数据; (2) 小样本学习, 研究在数据较少情况下通过迁移或自适应等方法实现对抗态势的直接评估; (3) 对方信息估计, 研究结合历史信息与当前对抗环境实现从底层到高层的对手动作估计、意图识别与策略估计; (4) 态势层次化认知, 研究结合多源异构信息进行态势的多角度层次化评估与推理.


4.3  对抗政策生成与优化

对抗策略主要涉及多智能体协同的任务规划, 解决群体与单体的行动规划问题, 其技术挑战在于: 不完全信息使得对手位置、行为、企图不能完全知道, 对手行为概率模型未知导致策略选择保守, 需要进行不完全信息下博弈策略选择; 宏观决策收益反馈滞后, 使得宏观决策的效应需要经过较长时间才能体现, 导致决策行为与效益之间难以形成有效映射; 行动能力与环境深度耦合, 忽略了局部环境因素可能导致策略分析严重偏差, 过度详细分析又导致对抗空间难以约减.


针对策略生成和优化方面的挑战, 利用策略游戏如星际争霸作为平台开展研究是国际上较为公认的方式[13, 14]. 相关方法包括使用学习的方法来选择特定的宏观运营策略[33, 34]和采矿、建造等特定微观操作[35], 利用构建顺序[36]、自动策略生成[37] 等开展策略优化方法. 可开展的研究包括: (1) 宏观策略生成, 针对面向使命任务的全局博弈对抗问题, 构建分层任务分解与任务协同机制, 实现复杂群体博弈对抗问题向低维空间约减; (2) 微观策略生成, 针对面向战斗任务的局部博弈对抗问题, 构建微型群体局部策略自适应机制, 实现微型群体的强博弈对抗能力与环境迁移能力; (3) 策略优化方法, 针对策略能力需要自主提升的问题, 构建博弈策略的评价机制和学习型策略演进机制, 实现博弈策略的自主进化与能力提升.


4.4  对抗行动协同与控制

策略的执行需要多个智能体的行动协同, 各智能体在自身信息获取与初步认知的基础上, 利用资源贡献、信息连通、要素融合、虚拟协作、智能辅助等功能, 将多个单元虚拟协同, 形成整合的群体行动协同与控制. 多智能体协同的难点包括: 多智能体的学习目标, 个体回报和团队回报的关系, 学习过程中各智能体之间的作用和影响, 联合状态和联合动作的获取, 扩大的状态空间和动作空间导致的维数灾难等问题.


目前相关研究工作主要集中在多智能体协同与学习方面[38]. 以星际争霸游戏为例, 代表性工作包括学习多个智能体协同进行局部战斗时的战术配合和运营建造时的动作配合[17, 35, 39]. 其中多智能体的协同控制方式包括集中式[40]、分布式[41] 和混合式[35, 39], 而学习的方法则主要基于不同的深度强化学习模型变种[42]. 针对上述难点, 行动协同与控制可开展的研究包括: (1) 从协同过程可分为序列策略表征、协同机制优化、异构多智能体协同以及多元协同的融合; (2) 从协同任务类型可分为同任务合作智能协同、异任务资源协调等; (3) 从理论上突破去中心化、通信中断的默契型协作方法, 任务涵盖序列化任务、多层次任务、多领域任务等, 实现场景类型全覆盖, 协同方式多元化, 为训练提供高质量协同策略.


5、应用及挑战


人机对抗智能技术从其诞生起, 就因在不断挑战人类过程中验证其能力而受到广泛的关注, 从深蓝到IBM Watson直至AlphaGo和AlphaStar, 不同环境下的人机对抗技术的突破不断成为这一领域的代表性工作, 尤其以2016年AlphaGo击败人类顶级棋手为标志, 拉开了新一轮人机大战的序幕. 人机对抗智能技术的应用领域涉及棋牌类游戏、即时策略游戏、兵棋推演等, 在多个领域内机器智能已经达到并超过了该领域的人类顶级选手, 不断刷新博弈对抗记录, 显示出了新一轮人工智能技术在认知决策方面的鲜明特点.


5.1  棋牌类策略游戏对抗

棋牌类策略游戏一直以来都被用作测试计算机智能发展水平的参考标准. 这些游戏由于简单的规则和丰富的玩法而深受全球范围内的广大爱好者的喜爱. 同样由于其规则的确定性, 加之游戏环境可控性和不完全信息等特性, 吸引了人工智能领域的持续研究. 传统棋牌类策略游戏AI 主要基于人工编写的规则和一些启发式搜索算法, 近期基于机器学习的博弈对抗算法在棋牌类策略游戏对抗应用中取得了突破性进展, 其中一个标志性事件就是谷歌的DeepMind公司2016年相继提出的AlphaGo系列技术[5, 11] 在围棋人机对抗中不仅取得了压倒性的优势, 而且完全脱离人类知识从零开始学习[11], 学到很多人类围棋选手无法理解的定式. 2017年来自加拿大阿尔伯塔大学等机构的研究人员提出了面向德州扑克的AI (DeepStack) [12], 该算法利用深度神经网络学习快速估计模型, 模拟人类选手的\直觉" 估计器, 能够快速向前搜索特定步数的博弈策略. 在1对1无限注德州扑克中, DeepStack 成为了第1个击败职业选手的德州扑克AI 程序. 同年, 来自于美国卡内基梅隆大学的研究者提出了一种名为Libratus 的德州扑克AI 算法[6], 在1对1无限注德州扑克中, 同样击败了多名顶尖的职业德州扑克选手. 上述两种算法采用的策略都是通过约简采样和学习搜索去逼近一个近似的纳什均衡, 保证AI程序尽量少犯错, 这种策略对于1 对1无限注德州扑克博弈问题可以得到一个较好的解决方案, 但是对于多对多无限注德州扑克博弈问题, 现有的AI算法在理论上被证明无法适用, 因此需要研发新型博弈算法进行技术突破.