英伟达崔岩:更多云服务转向加速计算,提升数据中心能效成关键

添加时间:2023-04-03 点击次数:215

·“下一波技术应用浪潮正在改变各行各业,首先是生成式人工智能,其次是数据科学,最后是用于创建虚拟世界的元宇宙。在这一波技术应用浪潮的推动下,云计算正在成为企业计算的标配。”

·“当企业试图在云计算运行这些下一代应用时,无论是私有云还是公有云,都面临规模与性能、高效和弹性、电力供应限制、安全的多租户基础设施这四大需求和挑战。”

英伟达DPU和DOCA技术专家崔岩谈下一波技术应用浪潮。“下一波技术应用浪潮正在改变各行各业,首先是生成式人工智能,如最近火爆全网的ChatGPT。其次是数据科学,由数据驱动决策。最后是用于创建虚拟世界的元宇宙,并在虚拟世界中训练人工智能或构建工业中的数字孪生模拟。这些都需要算力才能实现大规模的运行。”3月29日,英伟达DPU和DOCA技术专家崔岩在2023国际集成电路展览会暨研讨会(IIC SH)上谈到,在下一波应用浪潮的推动下,云计算正在成为企业计算的标配。

根据Gartner的预测,到2023年,全球最终用户在公有云服务上的支出预计将从2022年的4903亿美元增长20.7%,达到5918亿美元,高于2022年预测的18.8%增长率。

云计算面临四大挑战

“然而当企业试图在云计算运行人工智能、数据科学或元宇宙这些下一代应用时,无论是私有云还是公有云,都面临一些新的需求和挑战。”崔岩说。

首先是规模与性能,工作负载在数据中心运行时,需要高度分布式的方式处理大量的数据和大型数据集。这些对云计算数据中心的基础设施、性能有严格要求,一个租户的工作负载与共享相同基础设施的其他租户会争抢资源,这会带来一些问题。

其次是高效和弹性,当云计算采用软件定义数据中心时,就需要占用高达30%的CPU核心来运行基础设施工作负载。而这部分被消耗的CPU核心,本可以用来运行业务程序。这导致CPU负载的效率降低,经济性变差。

同时,随着2022年全球电力价格的飙升,很多云计算数据中心面临电力供应限制、节能减排和云服务租用成本降低等多重压力。而且如人工智能训练和高性能计算等工作负载的运行,在本质上是瞬时的,虽然需要大量算力,但需要的时间较短。这就需要云计算数据中心能够快速、动态地重新部署资源,以响应这些需求,从而满足租户和工作负载不断变化的需求,且随时随地可用。

最后,就是安全的多租户基础设施。云计算的多租户性质需要一个安全的多租户基础设施,通过部署无处不在的安全模型,来防止云计算数据中心内部和外部的网络攻击,并实现快速恢复。安全已经不是一种选择,而是业务应用所必须的。企业需要不断评估和调整他们的安全态势,来防范广泛且复杂的网络威胁。

崔岩认为,未来应对这些对云计算的需求与挑战,推动下一波应用浪潮,越来越多的云服务提供商转向加速计算。

英伟达CEO黄仁勋在上周的GTC大会上宣布,全面投产BlueField-3芯片。BlueField-3是第三代的NVIDIA DPU平台,专为下一代数据中心基础设施构建。BlueField-3 DPU将传统计算环境转变为从云端到边缘的高性能、高效率、高安全性、可持续的数据中心。

据崔岩介绍,头部的服务器、OEM制造商正在将BlueField-3集成到他们的系统中,同时英伟达还将其集成到英伟达数据中心计算平台中。

降低电力成本成为数据中心主要目标

在大模型等热门的当下,对算力的需求也大幅增长,如何提升数据中心能效更加成为一个关键问题。

起初数据中心关注的焦点在于,更大限度提升计算密度,缩短上市时间,以及部署冗余系统,实现高可用性等目标上。如今大部分的数据中心都可以实现快速上线,以及通过更高可用性和计算密度来改善耗电量。“降低相关电力成本,成为优化现在数据中心和设计新数据中心的主要目标。”崔岩说。

崔岩提出,四个主要的驱动力使得能效在数据中心中变得越来越重要。第一个驱动力是电力成本上涨,且呈现出长期趋势,全球能源需求旺盛与供应受限的相互作用不断推动电力成本。第二是供电量的硬性限制。现有的数据中心电力输入具有硬性限制,即使数据中心所有者有意愿多支付电力费用,数据中心也无法获得额外的电力。第三是节能减排的要求。面对气候变化压力,推动数据中心采用绿色环保电力,以实现双碳的战略目标。第四是公有云服务商定价压力。在电力成本不断上涨的压力下,公有云服务商还要持续降低云服务的租用成本,来应对市场的竞争压力。

目前为了提升数据中心能效,数据中心运营商通常会采用多种策略降低数据中心的耗电量和电力成本,主要有五种策略。

第一,在电力成本更低或供应量更丰富的地区建立数据中心。这种策略可以降低电力成本,但不能降低耗电量,而且电力成本后续有可能会上涨。

第二,改善能源使用效率,也就是PUE(Power Usage Effectiveness,评价数据中心能源效率的指标),更大限度提升用于实际IT设备的电力占比。主要采用更高效的配电和UPS(一种电源保护设备,可以在电网停电或电压异常时,通过内置电池等电源提供电力,以保持电子设备的正常运行),提高冷却效益和更高效的照明,但不能提升服务器的能效。

这两种策略在电力成本上升和数据平均PUE平稳的情况下,对于持续提升数据中心能效的作用已经不显著。

第三,通过虚拟化容器(让多个应用程序在一个计算机系统中共享资源,提高计算机系统的利用率和性能),更大限度地提升每台服务器的利用率,从而在同等工作负载的情况下采用更少的服务器,但这可能会增加每台服务器的耗电量。

第四,提高服务器的能效,即设法降低每台服务器的耗电量。

第五,将选定的工作负载外包给公有云或电力成本更低的主机托管中心,但由于数据隐私和管理合规问题,不是所有的工作负载都可以进行外包。而且,公有云服务商和主机托管中心的高能效带来的低耗电量并不一定能惠及客户,实现电力成本的节省。