功耗升級催生散熱產業鏈

【文/呂泰德】

AI伺服器功耗從晶片燒到整櫃,氣冷已難支撐高密度部署,液冷從選配走向標配,臺達電、奇𬭎、雙鴻、緯穎等臺廠卡位系統升級。

如果說二○二三年是生成式AI全面驅動的起點,那麼二六年則是AI資料中心正式進入功耗時代的分水嶺。過去二十年間,全球資料中心競爭焦點主要圍繞在運算效能、儲存容量與網路頻寬,但隨大型語言模型、生成式AI與AI Agent快速擴張,市場開始發現真正限制AI基礎建設擴張速度的關鍵因素,已逐漸從晶片供給轉向電力與散熱能力。因爲當運算密度持續提高,熱量增加速度遠遠超過傳統資料中心的設計假設,氣冷架構逐漸逼近物理極限。

當前,企業機房與一般雲端伺服器大多采用氣冷設計,單櫃功耗約落在五至十五kW,大型雲端業者部分高密度機櫃雖可達二○至三○kW,但仍可透過空調系統、冷熱通道管理以及高效風扇維持穩定運作。然而生成式AI出現後,情況開始出現變化,因爲AI伺服器不只是增加數量,而是讓單一機櫃的運算密度呈現倍數成長。尤其GB200 NVL72的問世,象徵AI資料中心正式從伺服器時代跨入機櫃時代。

功耗升級改寫散熱規格

過去資料中心競爭的是單臺伺服器效能,如今競爭的則是整個機櫃的運算能力與能源效率。由於七二顆GPU需透過NVLink高速互連形成單一運算平臺,系統設計更強調集中部署與高速資料交換,使算力密度創下歷史新高,但同時也將熱源高度集中。當機櫃功率密度突破一○○kW門檻後,傳統依靠風扇與空調的散熱方式逐漸接近極限,促使液冷從過去的選配方案轉變爲新世代AI資料中心的重要標準配置,並帶動冷板、CDU、快接頭與液冷機櫃等供應鏈全面升級。

根據施耐德電機公開資料,AI資料中心機櫃功率密度已由傳統十至二○kW,快速提升至超過一○○kW水準,未來更有機會朝數百kW發展。對資料中心營運商而言,真正的挑戰不只是耗電量增加,而是熱量移除效率。因爲空氣本身的熱容量有限,即使增加風量與空調能力,也無法有效解決高密度運算所產生的局部熱點問題。反觀液體的熱傳導效率遠高於空氣,能夠更直接將熱量從GPU與CPU表面帶走,因此開始成爲AI資料中心的主流方向。

也正因如此,Nvidia執行長黃仁勳也多次強調,未來資料中心將不只是儲存與運算空間,而是生產AI模型與AI服務的工廠。既然是工廠,就必須考慮能源供給、熱能管理與營運效率。這種思維轉變使得資料中心逐漸從資訊科技產業,跨入能源工程與基礎建設。

液冷直攻晶片熱源

當AI伺服器的運算密度愈高,熱源就愈集中,過去靠風扇、散熱片、熱導管與機房空調堆出來的氣冷架構,已經很難支撐百kW等級的機櫃部署。過去資料中心是把熱從伺服器內部吹到機房,再由空調系統處理;但AI機櫃的熱密度太高,若仍先讓熱留在機箱內,再透過空氣慢慢帶走,不只效率低,還會讓風扇耗電、空調負載與機房能耗同步上升。因此,產業開始把散熱位置直接貼近GPU與CPU,把熱在源頭就帶走,這就是直達晶片液冷(Direct-to-Chip; DTC)液冷。所謂DTC液冷,核心是利用冷板貼(Cold Plate)附在GPU、CPU與高熱源元件上,讓冷卻液透過冷板內部微通道流動,直接把晶片運算產生的熱帶走,再經由歧管、管路與CDU液冷分配裝置把熱交換出去。

【本文未完,全文詳情及圖表請見《先探投資週刊》2407期;訂閱先探投資週刊電子版】