尖端计算机芯片如何加速人工智能革命

添加时间：2024-07-30 点击次数：549

随着人工智能芯片市场的持续增长，各大科技公司都在开发自己的人工智能芯片，以满足人工智能对计算能力的巨大需求。2024年6月4日《Nature》期刊发表了题为《尖端计算机芯片如何加速人工智能革命？》的文章，探讨了推动人工智能计算革命的尖端芯片技术，以及人工智能芯片在提高计算效率、降低能耗方面的创新和挑战。

一

人工智能芯片的市场扩张

尽管人工智能的潜在影响让人们对其既充满期待又有些担忧，但人工智能芯片市场仍在不断扩张。目前，英伟达公司在这一领域占据着主导地位，其产品的市场份额超过80%。2023年，英伟达成功售出了55万块Hopper芯片，这些高性能芯片的单价至少为3万美元，并且它们主要面向数据中心市场，而非个人电脑用户。得益于此，英伟达的市值在今年大幅增长，达到了2万亿美元以上，使其成为全球市值排名第三的公司，超越了包括亚马逊和Alphabet在内的其他科技巨头。

在过去十年里，人工智能的显著进步并非源于巧妙的编程技巧，而是基于一个核心理念：模型越大越好。越来越多的大语言模型在庞大的数据集上进行训练，这就需要更强大的计算能力。据悉，OpenAI最新推出的GPT-4模型，其训练所需的计算资源是其前一代的100倍。像Meta这样的公司已经建立了依赖于英伟达高性能芯片的数据中心。此外，包括谷歌和IBM在内的其他公司，甚至一些规模较小的公司也在研发人工智能芯片。与此同时，研究人员正在探索各种芯片设计，包括一些针对小型设备优化的设计。这些芯片的共同特点是它们采用了包括并行计算、易于访问的储存和数字速记等技术，这些技术帮助它们克服了传统计算的限制，提升了处理速度。

二

人工智能芯片的兴起与演进

自20世纪70年代以来，中央处理器（CPU）的改进呈指数级增长。随着晶体管的缩小，它们在芯片上的密度每两年翻一番（这一趋势被称为“摩尔定律”），晶体管变得更小也更快。CPU的进步如此迅速，以至于定制设计其他类型的芯片变得毫无意义。然而，大约在2005年，晶体管尺寸的缩小速度开始放缓，工程师们面临一个挑战：他们担心无法继续让晶体管变得更小。CPU进展的放缓促使计算机工程师认真考虑其他类型的芯片。

事实上，视觉处理器（GPU）的早期版本自20世纪70年代末以来就已经存在，当时的GPU设计用于为视频游戏进行重复计算，例如尽可能快地渲染屏幕上像素的颜色。与CPU按顺序处理指令不同，GPU可以并行处理更多指令。通常，CPU中有一些强大的核心组件，并可以在这些核心组件中进行计算。每个单独的处理单元接收指令，并由多个缓存进行支持，这些缓存可以在短期内存储数据，这种架构使CPU非常适合复杂计算。相比之下，GPU有数百或数千个较小的核心组件，每个核心组件由较少的辅助系统支持。拥有许多较小的核心组件允许GPU比CPU更快地并行执行许多简单、重复的计算。

2012年，神经网络的早期倡导者之一、多伦多大学计算机科学家杰弗里·辛顿（Geoffrey Hinton）和他的学生阿莱克斯·克里兹维斯基（Alex Krizhevsky）、伊利亚·索特思科瓦（Ilya Sutskever）意识到使用GPU训练的神经网络可能会做得更好，因为机器学习的基本是简单、重复的计算。为此，他们使用两个GPU来训练神经网络，称为AlexNet，并在2012年度ImageNet竞赛中获得冠军。当时，使用CPU的程序来区分相似图像的准确率最多只能达到75%，而使用GPU的AlexNet准确率可达到85%。在一两年内，每个ImageNet的参赛者都开始使用GPU，从那时起，人工智能研究人员就开始严重依赖这些GPU。

尽管GPU像CPU一样仍然受到晶体管的约束，但它们并行计算的能力使它们能够加速人工智能任务。为了训练拥有1750亿个参数的大语言模型GPT-3，OpenAI的研究人员不得不连续运行1024个GPU一个月，这花费了数百万美元，这些GPU执行了10^23次浮点运算，同样的训练在CPU上需要数百到数千倍的时间。尽管GPU一直是人工智能革命的核心，但它们并不是唯一的选择。随着人工智能应用的激增，人工智能芯片的种类也在增加。

三

人工智能芯片的创新与突破

现场可编程门阵列（Field Programmable Gate Array，FPGA）的设计允许计算机工程师直接对芯片的电路进行编程，使其能够按照特定的命令执行任务，而不需要等待外部的指令。FPGA就像一盒乐高积木，工程师可以根据他们的想象将FPGA电路逐个构建成任何设计，无论是用于洗衣机传感器还是指导自动驾驶汽车的人工智能。包括英特尔旗下位于美国加州圣何塞的Altera在内的一些公司，将FPGA推向了包括医学成像在内的各种人工智能应用市场。研究人员也发现，FPGA在处理粒子对撞机数据等特殊任务上非常有用。此外，FPGA的易于编程性也使它们在芯片原型设计中具有价值，工程师们会尝试使用FPGA来设计人工智能芯片。

人工智能芯片最繁重的工作之一可能是进行乘法运算。2010年，谷歌面临一个问题：公司希望为大量日常用户提供语音转录服务。然而，要训练一个能够自动处理这项任务的人工智能，需要进行大量的乘法运算。为此，谷歌的计算机工程师们开发一种新型芯片，即张量处理器（Tensor Processing Unit，TPU），并将其作为谷歌人工智能的平台。TPU专门设计用于支撑人工智能的乘法运算。当TPU接收到一个指令时，它不是执行一个操作，而是可以执行超过10万个操作。TPU可执行大量操作而只需有限地等待指令的能力使得谷歌能够加快人工智能项目的进展。

四

人工智能芯片的能耗挑战与未来发展

人工智能芯片的设计会尽量避免让芯片记忆过多信息。在微处理器和存储器之间来回传输数据可能非常耗时且耗能。人工智能的电力消耗并不是一个小问题，据估计，训练GPT-3消耗了1300兆瓦时（MWh）的电力。即使在训练完成后，使用人工智能应用也可能消耗无穷无尽的能源。为了解决这个问题，许多GPU在单个芯片上直接集成了大量内存，如英伟达的Blackwell芯片大约有200GB的内存。当人工智能芯片安装在服务器中的时候，它们还可以共享内存，这使得各个芯片之间的网络连接更简单，耗电量也更少。尽管芯片设计的进步可以提高效率，但随着模型的增大，人工智能的能耗成本仍在逐年增加。

人工智能芯片的发展，如GPU的出现，并不意味着CPU退出历史舞台。相反，这些芯片之间的界限正在变得模糊，现在的CPU相比早期版本更擅长并行计算，而GPU也具有更多的功能。英伟达的Blackwell芯片的一个版本可以直接将GPU与CPU配对；位于美国田纳西州橡树岭国家实验室的超级计算机Frontier将CPU和GPU结合使用。考虑到过去十年的变化速度，研究人员表示很难预测芯片的未来，将来的人工智能芯片或许会使用光子芯片或量子计算芯片。与此同时，一些研究者认为，让公众更加了解人工智能芯片可以帮助人们揭开人工智能领域的神秘面纱，并纠正人们对人工智能无所不能的误解。未来，人工智能芯片技术的不断进步与创新将加速人工智能的发展与应用。

上一页：科技部更新组织架构：以深化科技体制改革推动新质生产力

下一页：深度思考丨“萝卜快跑”引发的思考