OECD发布:国家人工智能计算能力建设蓝图
添加时间:2023-05-23 点击次数:218
经济合作与发展组织(OECD)人工智能计算和气候专家组近日发布《国家人工智能计算能力建设蓝图》报告,为政策制定者提供了基于能力(可用性、使用)、有效性(人员、政策、创新、访问)和弹性(安全、主权、可持续性)三个维度的国家人工智能计算建设指南。
衡量人工智能计算:定义、范围考量和挑战
01
人工智能计算:定义与用途
2019年,经合组织理事会将人工智能定义为“一种基于机器的系统,可以针对给定的由人类定义的目标,做出影响现实或虚拟环境的预测、建议或决策”。虽然人工智能被视为一种无形的技术系统,但它以物理基础设施和硬件为基础。
经合组织人工智能计算与气候专家组提出了技术界和政策界都可以理解的人工智能计算(AI compute)的定义:“人工智能计算是包括一个或多个硬件和软件堆栈,以高效的方式支持专门的人工智能工作负载和应用程序。”
这个定义强调了人工智能计算的几个核心属性:
1. 人工智能计算包括大量的硬件和软件。人工智能工作负载不是由一个硬件或软件组件执行的,而是由一个或多个组件“堆栈”(层)执行的。硬件和软件堆栈之间的有效交互对于人工智能计算至关重要。
2. 人工智能计算堆栈专门用于人工智能,专业的硬件使人工智能的训练和使用成为可能。随着人工智能应用程序、参数数量和数据集规模的不断增长,人工智能计算堆栈正变得越来越专业。
3. 人工智能计算需求可能会有很大差异。根据应用程序、人工智能系统生命周期阶段和系统规模的不同,所需的人工智能计算可能有所不同。因此,计算需求因国家人工智能计划和人工智能系统生命周期的不同而有很大差异。
4. 人工智能计算以高效的方式支持人工智能工作负载和应用程序。这种效率对于使用大型模型和数据集进行人工智能研发至关重要。
人工智能计算涵盖了从芯片到数据服务器再到云计算等各种不同的技术。它支持人工智能系统的训练工作(即创建或选择模型/算法以及校准)和推理工作(即使用人工智能系统确定输出)。因此,人工智能计算需求随着用户需求改变而改变。
人工智能计算可以通过以下几种方式进行定位和访问:
1. 集成于数据中心。数据中心作为物理设施中的基础设施,用于托管人工智能的计算硬件、网络设备、软件和数据。
2. 集成于云服务。在云端通过公共或私有云网络提供服务。
3. 分散于去中心化设备上。即人工智能计算直接部署在独立的终端设备中,用于进行本地人工智能推理,例如在移动设备、物联网设备等上。
为了理解计算在人工智能系统中的作用,了解人工智能的生产驱动因素也很重要。一共包括三个驱动因素:算法、数据和计算。计算是人工智能系统的重要组成部分,随着时间的推移,其能力不断提高。它与数据和算法的区别在于,它以物理基础设施和硬件的“堆栈”(层)以及专门用于人工智能的软件为基础。这些堆栈由各种硬件和软件组件以及配置组成,是人工智能计算难以量化的原因之一。虽然人工智能系统的计算需求和硬件规格可以估计,但由于其复杂性,定义“全方位的人工智能计算单元”是不可能的。
此外,计算通常需要大量的自然资源,包括生产硬件的能源和矿产需求,以及运行过程中的能源和水资源消耗。专家组与全球人工智能伙伴关系负责人工智能工作组的专家合作,在一份由专家组提供的平行报告中对此进行了探讨。人工智能系统的计算需求可能因其生命周期阶段而异。
经合组织将人工智能系统的生命周期定义为包括以下阶段:(1)规划和设计;(2) 收集和处理数据;(3) 建立和使用模型;(4) 验证和验证模型;(5) 部署;(6)操作和监控该系统。对于机器学习系统,其计算需求主要体现在两个阶段:训练阶段(构建人工智能系统)和推理阶段(操作)。
训练人工智能模型,涉及从提供给系统的数据中确定权重和偏差值(也称为“学习”)。这是机器学习的一个基本组成部分,一旦神经网络经过训练,它就会通过计算过程将训练后的权重应用于新的输入数据来生成输出。这被称为推理(或“正向传递”),经过训练之后就可以为应用程序分发和部署网络。在这一点上,网络基本上是静态的:所有的计算和中间步骤都被定义了,只有输入内容才有必要进行推理。例如使用搜索引擎查找信息(如谷歌搜索),与虚拟个人助理交谈(如Siri、Alexa)。
完整的训练运行在计算上比用于单一推理的计算更密集。这主要有两个原因:首先,权重的训练是迭代的:单个输入需要许多次循环才能获得所需的结果。其次,训练数据需要可用于计算系统,这需要内存容量。由于这两个因素的结合,就内存和计算资源而言,训练通常是一个更复杂的过程。考虑到重要的数据和计算需求,训练更有可能在高性能集成计算机上进行。相比之下,人工智能部署(即运行推断)在人工智能计算需求方面的变化更大,推理可以在计算能力较弱的设备上进行。然而,虽然单个训练运行比单个推理更需要算力,但推理阶段通常在人工智能系统的生命周期中需要更多的计算,因为机器学习系统在其开发阶段通常只训练几次,而在系统部署生命周期里,每次使用系统时都会重复执行推理任务。
02
衡量标准存在的挑战
衡量人工智能计算能力和需求尤其具有挑战性。目前,很少有工具和指标可以用来衡量人工智能计算。人工智能计算的文献通常侧重于性能计算系统的测量,其他方法采用计算机在一秒钟内可以完成的计算数量作为计算性能的指标。虽然计算性能的衡量标准很有用,但它既不是国家计算能力的完整指标,也不是一个国家人工智能计算需求的完整指标。
人工智能计算的定义因国家而异。例如某些国家规定的国家人工智能计算,是指受国内法律法规的约束,并且实际位于国家管辖范围内的人工智能计算。如果人工智能计算由非国内私营公司或公共部门拥有和运营,或实际位于另一个国家,政策制定者需要考虑是否可以将其归类为“国家人工智能计算”。评估一个国家内人工智能系统的总体性能可能是计算国家人工智能计算能力的一种方法,但这种方法有局限性。另一种方法是计算离散的人工智能系统数量,并按性能的“类别”对其进行分组,例如领导级人工智能系统和中心级人工智能。
另一个衡量的挑战是:计算可以是通用的,这意味着计算基础设施可以用于人工智能工作和非人工智能工作,例如数学和科学建模以及其他与人工智能没有直接关系的计算需求。这一挑战与硬件和基础设施密切相关,因为数据中心和高性能计算基础设施除了人工智能之外,还可以有各种应用。根据谷歌的一项研究,在2019-2021年期间,其机器学习工作量的总体能源使用始终不到总能源使用量的15%。又如,据一家大型云计算提供商估计,其企业客户将其计算基础设施总支出的7%-10%用于支持人工智能和机器学习应用程序,其中3%-4.5%用于训练,4%-4.5%用于推理。这些评估可以为人工智能用于何种用途提供信息,同时显示出计算是用于人工智能训练还是推理。
专家们专注于在国家层面创建人工智能计算的衡量框架,这也带来了具体的挑战。各国参与了各种国际倡议的制定,如高性能计算基础设施的研究合作,这使得将人工智能计算能力分配给各个国家变得困难。通过云访问的计算能力引发了同样的问题,因为通过云访问国家级算力可能依赖于位于跨境和不同司法管辖区的服务器和数据中心。
确定与人工智能计算活动相关的技能和职位也是一项挑战。2008年国际标准职业分类(ISCO-08)和许多国家职业分类没有将人工智能计算职业与通用软件和信息通信技术开发、制造和维护工作区分开来。这使得国际上对人工智能计算相关的职位定义不明确。例如一个“数据科学家”的职位可能会要求人工智能建模、硬件、大数据和各种人工智能领域技能,它们与“机器学习专家”和“数据工程师”等职位所要求的技能重叠。由于国家技术环境和对经验的需求不同,人工智能相关职位中列出的技能也因国家而异。