一、液冷技术类型:
1) 液冷(liquid cooling):采用冷却液作为传热介质,通过循环流动直接或间接带走数据中心发热器件(如CPU、GPU)热量的技术。相比风冷,效率更高,适用于高密度、高能耗场景。
2) 浸没式液冷(Immersion cooling):将服务器或电子元件完全浸没在非导电冷却液中,通过液体直接接触散热。根据冷却液是否发生相变分为:
3) 单相浸没液冷(Single-Phase Immersion):作为传热介质的液体在热量传递过程中仅发生温度变化,而不存在相态转变,过程中完全依靠物质的显热变化传递热量。
4) 相变浸没液冷(Two-Phase Immersion):冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量,液体吸热后汽化,通过冷凝重新液化(潜热),如氟化液。
5) 喷淋式液冷(spray cooling):通过喷嘴将冷却液精准喷洒至发热元件表面,利用重力或系统压力强制对流或蒸发散热。
6) 冷板式液冷(cold plate cooling):通过金属冷板(通常为铜/铝)与发热器件(如CPU、GPU)接触,液体流经冷板内部通道带走热量的间接冷却方式。液体不直接接触电子元件。
二、液冷系统组件
1) CDU(Coolant Distribution Unit,冷量分配单元):可看作室内机与室外机的连接桥梁,主要由循环泵、变频器、过滤器、板式换热器、电控单元、监控传感单元、连接管路与阀门等组成的装置。将设备的热量通过CDU内置的热交换器传导至二次冷却环路水循环系统,是液冷方案的核心,负责冷源的利用,与热源的散热调配。
2) Manifold(歧管/分配器):分配冷却液至多个支路的管道系统,确保流量均匀分配到不同机架或服务器。
3) 干冷器(Dry Cooler):利用环境空气冷却循环液体的设备,无需消耗水资源,适用于缺水地区。
4) 换热器(Heat Exchanger):实现两种流体之间热量传递的装置,如液冷系统与冷水机组之间的板式换热器。
5) 泄漏检测系统(Leak Detection System):实时监测液冷管道或接头是否泄漏的传感器及报警装置,确保安全性。
6) 冷凝器(Condenser):冷凝器是相变液冷系统中的一个组件,用于将气态冷却液冷却并重新凝结为液态。在冷凝过程中,冷却液释放出其吸收的潜热。
7) 冷却塔(Cooling Tower):一种用于将冷却系统中的热量散发到大气中的设备。在数据中心液冷系统中,冷却塔通常用于冷却循环使用的冷却液。
8) 冷却液循环泵(Coolant Pump):是液冷系统中的一个关键组件,用于推动冷却液在系统中循环流动。它的性能直接影响到冷却液的流动速度和冷却效率。
9) 散热片(Heat Sink):一种用于增加散热面积的装置,通常与发热器件紧密接触以提高散热效率。在液冷技术中,散热片可以与冷板式液冷系统结合使用,以增加冷却液的散热面积。
10) 流量控制阀(Flow Control Valve):用于调节冷却液中的流量,以确保冷却液能够均匀地分配到各个发热器件上。在液冷技术中,流量控制阀对于维持系统的稳定性和效率至关重要。
11) 热能再利用装置(Heat Reuse Unit,HRU):是由热交换器、风机、冷却设备、控制装置等组成的系统,工作原理是通过热交换器,在向外排放废气的同时将其中的热能回收,并把回收的热能再利用。
12) 不间断电源(Uninterruptible Power Supply,UPS):可以保障计算机系统在停电之后继续工作一段时间以使用户能够紧急存盘,不致因停电而影响工作或丢失数据。在计算机系统和网络应用中,主要起到两个作用:一是应急使用,防止突然断电而影响正常工作,给计算机造成损害;二是消除市电上的电涌、瞬间高电压、瞬间低电压、电线噪声和频率偏移等“电源污染”,改善电源质量,为计算机系统提供高质量的电源。
三、冷却介质:
1) 去离子水(Deionized Water, DI Water)
去除杂质离子的高纯度水,用于冷板液冷系统,需防腐蚀和微生物控制。
2) 矿物油(Mineral Oil)
单相浸没液冷常用介质,绝缘性好、成本低,但黏度高且散热能力有限。
3) 氟化液(Fluorinated Liquid)
如3M Novec,绝缘且化学惰性,适用于两相浸没液冷(汽化潜热高)。
4) 乙二醇水溶液(Ethylene Glycol/Water Mix)
防冻液,用于低温环境或间接液冷系统,防止管道冻结。
5) 介电流体(Dielectric Fluid)
泛指不导电的冷却液(如氟化液、合成油),可直接接触电子元件。
四、散热与热力学术语
1) PUE(Power Usage Effectiveness,电能利用效率):是目前普遍接受和采用的一种衡量算力中心能效的综合指标,其计算公式为:PUE = Pt / PIT。其中,Pt为数据中心总耗电量(单位KWh),PIT为数据中心中IT设备耗电量(单位KWh)。PUE的实际含义,是指计算在提供给数据中心的总电能中,有多少电能是真正应用到IT设备上。PUE值的取值范围为1.0到无穷大,PUE值越接近于1,说明数据中心用于IT设备以外的能耗越低,越节能。
2) WUE(Water Use Efficiency,水资源利用效率):是衡量数据中心水资源利用效率的重要指标。计算公式是:数据中心水资源的全年消耗量/数据中心IT设备全年耗电量。因此,WUE 数值越小,表示数据中心的水资源利用效率越高。
3) TDP(Thermal Design Power,热设计功耗):芯片或组件在最大负载下的发热功率(单位:瓦),指导散热系统设计。
4 ) 热密度(Thermal Density):单位面积或体积的发热功率(W/cm² 或 kW/机架),液冷可支持更高热密度(如30kW+/机架)。
5) 热阻(Thermal Resistance):热量传递路径的阻力(℃/W),液冷系统需降低冷板、接口等环节的热阻。
6) 显热冷却(Sensible Cooling):仅通过液体温度升高带走热量(无相变),如冷板液冷。
7) 潜热冷却(Latent Cooling):利用液体汽化吸收潜热(相变),如两相浸没液冷,效率更高。
五、关键参数与指标
六、其他相关术语
1)CPU(Central Processing Unit,中央处理器):是计算机的主要处理单元,负责执行程序指令、处理数据和控制计算机的其他硬件部件。
2)GPU(Graphics Processing Unit,图形处理单元):用于大规模并行计算,如图形渲染、科学计算、深度学习等。
用一句话概括CPU和GPU的区别:CPU擅长处理复杂逻辑和控制任务,而GPU则专注于大规模并行计算,尤其在图形处理和深度学习方面表现出色。
3)数据中心(Data Center):数据中心是一整套复杂的设施,用于实现对数据信息的集中处理、存储、传输、交换和管理。它包括服务器、存储设备、交换机、路由器、防火墙等设施,是企业运营不可或缺的一部分,支撑着关键业务应用程序,如客户关系管理、企业资源规划和供应链管理系统等。数据中心也是推动数字化转型、大数据分析和物联网等现代技术趋势的基石,是云计算服务的基础。
4)超算中心(National Supercomputing Center):超算,即超级计算机,是指能够进行高速、大规模、复杂的科学计算的计算机系统。超算中心则是指由国家兴建、部署有千万亿次高效能计算机的超级计算中心,它由国家兴建和运营,主要服务于一些对运算能力需求大的项目,如动画影视特效渲染、气象预测和国家大型科研项目等。同时,超算中心还肩负着开发高效可信的超级计算机系统、新一代服务器系统的责任。
5)智算中心(Artificial Intelligence Data Center,AIDC):指人工智能计算中心,是基于人工智能理论,采用人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的一类算力基础设施。
6)边缘智算中心(Edge Artificial Intelligence Data Center):指位于网络边缘,介于用户端和集中式云智算中心之间,旨在减少数据传输距离和时间,提高数据处理速度和效率,具有规模小、部署位置灵活、计算和存储能力本地化等特点的新型的智算中心形式。
7)HPC(High-Performance Computing,高性能计算):是利用超级计算机实现并行计算的理论、方法、技术以及应用的一门技术科学,围绕利用不断发展的并行处理单元以及并行体系架构实现高性能并行计算这一核心问题,该领域研究范围包括并行计算模型、并行编程模型、并行执行模型、并行自适应框架、并行体系结构、并行网络通信以及并行算法设计等。
8)IDC(Internet Data Center,互联网数据中心):指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用服务平台。
9)边缘计算(Edge computing):是一种分布式计算的架构,将应用程序、数据资料与服务的计算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘计算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端设备,可以加快资料的处理与发送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。