Liquid cooling in data centers: A deep dive(2025)
随着人工智能 (AI)、高性能计算 (HPC) 和 GPU 加速工作负载的不断扩展,现代数据中心面临着前所未有的功率密度和发热量。传统的风冷方式已接近其物理极限。为了保持性能、可靠性和可持续性,许多组织正在转向一种新的散热管理标准:液冷。
本文探讨了什么是液冷、为什么液冷很重要、液冷背后的技术、关键的实施考虑因素,以及组织如何为未来选择合适的冷却策略。
为什么冷却对数据中心至关重要
每个数据中心都依赖高效的冷却系统来维持稳定可靠的运行。CPU、GPU、内存和网络组件产生的热量必须迅速散发,以防止:
-
热节流和性能下降
-
硬件损坏或使用寿命缩短
-
系统不稳定和停机
-
能源消耗过高
随着机架功率密度不断提高——尤其是在人工智能和高性能计算基础设施领域——传统风冷系统的局限性日益凸显。液冷系统能够提供支持这些新一代工作负载所需的散热效率。
什么是液冷?
液冷系统使用冷却液(而非空气)来吸收和带走服务器组件的热量。由于液体的导热性和热容量远高于空气,因此可以更高效、更直接地从高功率设备中吸收热量。
液冷技术使企业能够:
-
支持更高的机架密度
-
提高热稳定性
-
降低能源消耗
-
在高密度环境下降低操作复杂性
-
释放人工智能和高性能计算工作负载的更大性能
数据中心冷却技术的演变
从风冷到液冷
几十年来,传统的空气冷却——使用 CRAC/CRAH 机组、架空地板、封闭系统和高速风扇——为通用数据中心提供了足够的冷却能力。
然而,GPU集群、超高密度服务器和AI训练工作负载的兴起,带来了巨大的热负荷,仅靠空气冷却已无法有效应对。液冷正在成为弥合性能差距并提供面向未来的散热能力的解决方案。
现代液冷技术创新
当今的液冷技术包括:
浸没式冷却
服务器浸没在导热但不导电的液体中。热量直接被冷却剂吸收,从而提供卓越的散热效率。
芯片直接冷却/冷板冷却
液体流经直接安装在 CPU、GPU 和其他高发热组件上的冷板,从源头提取热量。
机架内液冷
冷却系统集成在机架级别,可在保持高效散热的同时实现高密度部署。
这些技术支持不断增长的计算密度,并加速实现可持续发展目标。
为什么数据中心选择液冷?
卓越的热效率
液体比空气更能有效地传递热量,因此能够以更低的能耗带走大量热量。这减少了对空调的依赖,并最大限度地降低了风扇的能耗。
性能稳定性和硬件寿命
通过保持持续较低的温度,液冷可以防止热节流并降低热应力,从而提高服务器可靠性并延长硬件寿命。
降低能源消耗和可持续性效益
液冷系统运行效率更高,并可实现以下功能:
-
降低 PUE
-
减少机械冷却
-
更小的环境足迹
-
潜在的热能再利用(例如,建筑供暖、工业过程、温室)
更高的货架密度和空间利用率
通过更好的散热管理,数据中心可以在相同的物理空间内容纳更多的计算能力——这对空间受限的人工智能数据中心和托管设施来说是一个至关重要的优势。
液冷系统的核心部件
典型的液冷架构包括:
冷却液分配单元(CDU)
控制冷却液的流量、温度和压力。作为液冷冷却回路的核心部件,确保运行稳定安全。
热交换器和水泵
将冷却剂吸收的热量传递到辅助冷却回路(水,有时也用空气)。泵维持冷却剂的稳定循环。
液冷机架
专为冷板或浸没式水槽设计,提供密封、高效且易于维护的冷却环境。
冷却液
包括水基溶液、介电液(用于浸没)和工程冷却剂——选择这些冷却剂时考虑了热容量、化学稳定性和安全性。
测量液冷效率
关键效率指标包括:
散热能力
以瓦特或千瓦为单位进行测量,确定系统可以承受多少热负荷。
总体能源消耗
包括泵、热交换器、常闭式装置和空气冷却负荷的减少。
绩效指标
-
PUE(电源使用效率)
-
性能系数 (CoP)
-
能源再利用效率 (ERE)
液冷通常能够降低 PUE 并提高 CoP,这表明其效率优于空气冷却系统。
实施注意事项
采用液冷技术需要周密的规划。关键因素包括:
空间与布局
虽然液冷可以实现更高的密度,但数据中心必须为冷却单元、管道、热交换器和维护通道分配物理空间。
基础设施成本
初始投资成本高于空气冷却。然而,长期运营成本的节省通常可以抵消投资,尤其对于人工智能驱动的设施而言更是如此。
维护和运营复杂性
液体系统需要监测:
-
酷炫的品质和音量
-
泵性能
-
压力和流量
-
泄漏缓解与检测
-
温度控制
这需要训练有素的人员和严格的程序。
改造与新建
将现有的风冷数据中心升级为液冷(尤其是浸没式系统)可能既复杂又昂贵。许多机构选择混合方案或在新数据中心部署液冷系统。
选择合适的冷却策略
| 冷却类型 | 最适合 | 优点 | 缺点 |
|---|---|---|---|
| 空气冷却 | 低至中等密度工作负载 | 成熟、简单、低资本支出 | 对于高密度机架而言效率低下;PUE值较高。 |
| 液冷 | 人工智能、高性能计算、GPU集群、高密度环境 | 效率极高,密度高,PUE值降低 | 初始成本较高,运维更复杂 |
| 混合冷却 | 混合工作量,分阶段过渡 | 灵活、渐进式的采用 | 需要更复杂的热分区设计 |
最佳选择取决于工作量构成、长期战略、预算和可持续发展目标。
未来展望:人工智能驱动的制冷与可持续性
随着计算工作负载的不断增加,液冷技术将继续占据主导地位。下一阶段将集成利用人工智能和机器学习的智能控制系统,以实现以下目标:
-
预测热负荷
-
优化泵速和流量
-
平衡热能再利用机会
-
自动调节冷却液温度
结合可持续发展举措、可再生能源和热能再利用项目,液冷技术将在高效、绿色数据中心的未来发展中发挥核心作用。
结论
液冷技术代表着数据中心热管理领域的一次变革。它能够提供更高的效率、更高的密度和长期的成本节约,从而释放现代人工智能和高性能计算应用所需的性能。
计划新建数据中心或升级现有数据中心的组织应将液冷技术视为对性能、可持续性和面向未来的一项战略投资。

