隨著生成式AI應用加速普及,巨大的數據資料處理與運算需求,造成晶片功耗及機櫃整體耗電大幅提升,功耗愈高,產生的熱愈多,就須把熱快速有效帶走,否則晶片會過熱甚至損壞,傳統氣冷解熱極限750W,若要突破解熱極限,光用風扇氣體降溫已不夠,必須加速採用能夠承受1,000W以上的液冷(Liquid Cooling)方案,不僅如此,也須優化電源管理架構,以確保系統的穩定性及高效運行。
以輝達(NVIDIA)Blackwell系列GB200超級晶片為例,其整合2顆Blackwell架構的Tensor Core GPU(即B200晶片)與1顆Grace CPU。單顆B200 GPU熱設計功耗(TDP)約1,200W,單顆Grace CPU的TDP約300W,合計每顆GB200超級晶片的總功耗約2,700W(1,200x2+300)。GB200 NVL72總機櫃TDP更高達130kW(13萬W)。當升級至GB300甚至是下一代Rubin平台時,功耗均將急速暴增。此數值皆已遠超傳統氣冷散熱極限(約750W),須採用液冷方案以確保散熱效率與系統穩定性。
液冷又分為「水冷(Water Cooling)」和「油冷」,目前主流為水冷。AI伺服器幾乎都採用水冷散熱方案,「液冷」與「水冷」多數情境下可視為同義。其核心原理是用液體作為導熱介質,直接或間接將高熱元件產生的熱量帶走。