AIGC的这把火,燃起来的可不只是百模大战的热度和雨后春笋般的各式AI应用。更是由于算力与通信需求的爆发式增长,使得底层的专用加速芯片、以及配备这些芯片的AI加速服务器再次被拉到了大众的聚光灯下。
据统计,2024年全球范围内的AI服务器市场规模已经达到了211亿美元,并且IDC还发布预测说:而且AI加速服务器不同于普通服务器,在架构上一般采用异构的方式,且的数量更是能配多少就配多少,这也就是造成目前GPU千金难求的因素之一。
但你知道吗?即使在大模型时代GPU或各式AI加速芯片的光芒变得更加耀眼,但对于AI基础设施来说,依然是必不可少的存在——至少一台高端的AI加速服务器中每8个GPU就需得搭配2个CPU。不仅如此,由于AI加速服务器异构的特点,市场上除了CPU+GPU的组合方式之外,还有其它多种多样的架构,例如:
不难看出,即使AI加速服务器架构的组合方式万般变化,唯独不能变的就是CPU,而且往往还得是搭配高端的那种。那么为什么会这样呢?AI加速服务器中的CPUCPU对于AI加速服务器来说相当于人的大脑。它可以负责整个服务器的运算与控制,是直接影响到服务器整体性能的核心部件。CPU处理操作系统的指令,协调各个硬件组件的工作,包括内存管理、数据流控制和I/O操作。
即使在AI服务器中,GPU或其他加速器负责执行大部分计算密集型任务,CPU仍然是不可或缺的,因为它确保了整个系统的稳定运行、各组件的高效通信协作,最终推进任务的顺利执行。CPU还具备灵活性和通用性。CPU的设计一般为通用处理器,能够执行各种类型的计算任务。虽然GPU在并行处理方面更为高效,但CPU在处理序列化任务、执行复杂逻辑和运行通用应用程序方面更为灵活。
真正完整的AI应用平台其实需要处理一系列密切相关又特色各异的任务,包括数据预处理、模型训练、推理和后处理等,这些任务也可能甚至特别需要CPU的通用处理能力。不仅如此,CPU还是系统启动和维护的关键点。因为服务器的启动过程、系统监控、故障诊断和维护操作都需要CPU来执行;没有CPU,这些关键的系统级任务将无法进行。
而且CPU在软件兼容性方面更是有积累多年的优势。市面上大多数软件和应用程序都是为CPU设计的,包括操作系统、数据库管理系统和开发工具。AI加速服务器需要运行这些软件来支持AI应用的开发和部署。也正如我们刚才所说,现在AI加速服务器均是采用异构的形式,CPU在此过程中可以作为控制节点,管理GPU或其他加速器的计算任务,以此来实现高效的资源分配和任务调度。
最后,便是成本的问题。虽然GPU在AI计算中非常高效,但CPU或其他专用加速芯片仍然是成本效益较高的选择,特别是在处理不适合GPU或加速器的任务时。CPU和它们的组合可以提供更佳的性能和成本平衡。这也就不难理解为什么AI加速服务器里唯独不能缺少CPU了。那么接下来的一个问题便是,主流的服务器厂商都在用什么样的CPU。我们以国内AI加速服务器市场份额排的浪潮为例,从消息来看,其NE5260G7服务器便已经适配了老牌芯片巨头英特尔发布的第五代英特尔至强可扩展处理器。
而之所以浪潮要适配的高端CPU,可以理解为高端的游戏需要搭配高端GPU和CPU,AI服务器要想在性能上取得新突破,同样也是要适配高端的硬件。具体而言,与前一代相比,第五代英特尔至强可扩展处理器在处理人工智能工作负载方面表现出色,其性能提升了21%,特别是在AI推理任务上,性能增幅更是达到了42%。它的内存带宽也增加了16%;在执行一般计算任务时,第五代至强可扩展处理器能够将整体性能提高至多21%,并且在多个客户实际工作负载中实现了每瓦特功耗性能提升高达36%。
也正因内核如此强悍,才使得浪潮的服务器在性能上实现了平均21%的提升。不过有一说一,毕竟AI也不完全就是单纯。
推荐阅读:
发表评论