新闻  |   论坛  |   博客  |   在线研讨会
人工智能正在引领数据中心物理基础设施的新时代
chaser1 | 2023-12-22 11:04:06    阅读:120   发布文章

人工智能(AI)目前正在对数据中心行业产生深远影响,这种影响可归因于OpenAI在2022年底推出的ChatGPT,该产品因其对查询提供复杂且类似人类的响应的卓越能力而迅速受到欢迎。因此,作为人工智能技术的一个子集,生成式人工智能成为2023年上半年行业活动、财报和供应商生态系统讨论的焦点。这种兴奋是有道理的,因为生成式人工智能已经引起了数十场讨论。数十亿美元的投资,预计到2027年将继续让数据中心资本支出提高到5000亿美元以上。然而,由于训练和部署支持生成式人工智能应用程序的大型语言模型(LLM)所需的计算能力显着扩展,因此需要对数据中心的架构进行更改。

虽然支持此类人工智能应用所需的硬件对许多人来说都是新的,但一部分数据中心行业已经部署此类基础设施多年。该领域通常被称为高性能计算 (HPC) 或超级计算行业。从历史上看,这个细分市场主要得到政府和高等教育机构的支持,以部署一些世界上最复杂和精密的计算机系统。

生成式人工智能正在做的事情是,将人工智能应用程序和支持它们的基础设施扩展到更广泛的企业和服务提供商市场。向HPC行业学习让我们了解基础设施可能会是什么样子。


图 1:AI硬件影响

人工智能基础设施需要更多的电力和液冷设施

总结图 1 所示的影响,人工智能工作负载将需要更多的计算能力和更高的网络速度。这将导致更高的机架功率密度,这对数据中心物理基础设施(DCPI)具有重大影响。对于电力基础设施(也称为灰色空间),预计架构变化将受到限制。AI工作负载应该会增加对备用电源(UPS)和IT机架(机柜PDU和母线槽)配电的需求,但不会要求任何重大的技术变革。人工智能基础设施将对DCPI产生变革性影响的地方在于数据中心的空白区域。

首先,由于AI IT硬件的功耗较高,需要更高功率的机架式PDU。在这些额定功率下,发生潜在故障或效率低下相关造成的成本可能很高。预计这将推动最终用户采用智能机架PDU,并能够远程监控和管理功耗和环境因素。这些机架PDU的成本比基本机架PDU高出许多数量级,而最终用户无法监控或管理其机架配电。

对于数据中心架构来说,更具变革性的是需要液体冷却来管理下一代CPU 和GPU运行AI工作负载时产生的更高热负载。液体冷却(包括直接液体冷却和浸没式冷却)在更广泛的数据中心行业中的采用不断增加,预计随着人工智能基础设施的部署而加速。然而,考虑到采用液冷的的跑道历史漫长,Dell’Oro预计生成式人工智能对液冷的影响在短期内将受到限制。仍然可以部署采用风冷技术的当前一代IT基础设施,但会牺牲硬件利用率和效率。

为了应对这一挑战,一些最终用户正在使用闭环空气辅助液冷系统改造其现有设施。这种基础设施可以是后门热交换器(RDHx)或直接液体冷却的一种形式,其利用液体来捕获机架或服务器内产生的热量,并在机架或服务器的后部将其排出,将其引导到热通道中。这种设计使数据中心运营商能够利用液冷的一些优势,而无需大量投资来重新设计设施。然而,为了大规模实现人工智能硬件的预期效率,需要专门建造的液冷设施。预计当前对液冷的兴趣将在2025年开始在部署中体现出来,预计到2027年液冷收入将接近20亿美元。

电力可用性可能颠覆人工智能的炒作

将人工智能工作负载纳入未来数据中心建设的计划已经实现。这是Dell’Oro上调数据中心物理基础设施市场5年前景的主要原因,目前预计到2027年收入将以10%的复合年增长率增长。但是,尽管人工智能工作负载预计将为数据中心行业带来巨大的市场增长,但仍有一些值得注意的因素可能会减缓这种增长。新冠加速了数字化的步伐,掀起了新数据中心建设的浪潮。然而,随着需求的实现,供应链难以跟上,导致数据中心物理基础设施的交付时间在高峰时超过一年。现在,随着供应链限制的缓解,DCPI供应商正在解决积压问题,并开始缩短交货时间。

然而,对人工智能工作负载的需求正在形成数据中心行业的另一波增长浪潮。这种双倍增长导致数据中心行业不断增长的能源需求与公用事业公司向所需地点供电的速度之间存在差异。因此,这导致数据中心服务提供商探索“自带电源”模式作为潜在的解决方案。虽然该模型的可行性仍在确定中,但数据中心提供商渴望一种创新方法来支持其长期增长战略,而人工智能工作负载的激增是一个核心驱动力。

随着对更多DCPI的需求与可用功率的平衡,有一点是明确的:人工智能正在开创DCPI的新时代。在这个时代,DCPI不仅将在促进数据中心发展方面发挥关键作用,还将定义性能、成本并帮助实现可持续发展。这与DCPI所扮演的历史角色截然不同,特别是与近十年前的行业相比,当时DCPI几乎是事后才想到的。

随着AI增长浪潮的迅速到来,在AI策略中满足DCPI要求至关重要。如果不这样做,可能会导致AI IT硬件无处可插。

参考文献:

AI is Ushering in a New Era for Data Center Physical Infrastructure - Lucas Beran joined Dell’Oro Group


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客