AI 大型語言模型的訓練與推論需求正以指數級速度攀升,驅動 GPU 功耗從 NVIDIA A100 的 400 W 一路攀升至 H100 的 700 W、再到 B200 的 1,000 W[1]。當一座滿載 GPU 加速器的機櫃功耗從傳統的 5–10 kW 躍升至 40–120 kW,傳統氣冷系統在物理上已經到達極限。液冷(Liquid Cooling)不再是前瞻選項,而是 AI 世代資料中心的工程必需。本文將從系統工程的角度,深入剖析液冷與浸沒式冷卻的技術分類、設計要點、混合架構策略以及廢熱再利用的永續效益。
一、為什麼氣冷已不夠用?
要理解液冷技術的必要性,必須先認識氣冷散熱的物理瓶頸。空氣的體積比熱容(volumetric heat capacity)約為 1.21 kJ/(m3K),而水則達到 4,184 kJ/(m3K)——差距超過 3,400 倍[2]。這意味著在相同的溫度差與流量下,水能移除的熱量遠遠超過空氣。
GPU 功耗的世代躍遷
從資料中心散熱工程的視角來看,GPU 功耗的演進是驅動技術典範轉移的核心力量:
- NVIDIA A100(2020):TDP 400 W,單機櫃約 20–30 kW,傳統列間空調勉強可應對
- NVIDIA H100(2023):TDP 700 W,DGX H100 系統功耗 10.2 kW,單機櫃可達 40–60 kW
- NVIDIA B200(2024):TDP 1,000 W,GB200 NVL72 機櫃功耗達 120 kW,原廠即要求液冷架構[3]
機櫃密度與 PUE 的瓶頸
當機櫃功耗超過 30 kW,氣冷系統必須大幅增加送風量才能維持可接受的進風溫度。ASHRAE TC 9.9 所定義的 A1 級設備允許進風溫度為 15–32°C[4],但在 60 kW 以上的高密度場景中,即使採用冷熱通道封閉與列間空調,風扇功耗與風道壓損將推高 PUE 至 1.5 以上,同時產生 80 dBA 以上的噪音。這不僅增加能源成本,更讓維運人員難以在機房內長時間作業。
根據 Uptime Institute 2024 年的全球資料中心調查,超過 52% 的營運商已將液冷納入未來三年的建設規劃,而 2020 年這個比例僅為 18%[5]。液冷的轉折點已經到來。
二、液冷技術分類與比較
液冷技術並非單一方案,而是一個涵蓋不同冷卻精度與工程複雜度的技術光譜。依照冷卻液與 IT 設備的接觸方式,可分為四大類:
後門式散熱器(Rear-Door Heat Exchanger, RDHx)
RDHx 是最溫和的液冷導入方式。它將一個水冷式熱交換器安裝在機櫃後門的位置,當伺服器排出的熱空氣通過後門時被冷卻水帶走熱量。RDHx 不需要改動任何 IT 設備內部結構,適合既有機房的漸進式升級。Open Compute Project(OCP)已發布 RDHx 的標準化設計規範[6],每扇後門可處理約 30–50 kW 的散熱量。然而,RDHx 本質上仍是「氣冷+液冷」的混合模式,對超過 50 kW 的超高密度場景能力有限。
直接晶片液冷(Direct-to-Chip, DLC)
DLC 將冷板(Cold Plate)直接貼合在 GPU 或 CPU 的封裝表面,以循環冷卻液在熱源處帶走熱量。這是目前 AI 資料中心最主流的液冷技術。NVIDIA GB200 NVL72 即採用 DLC 架構,冷卻液進出溫度約 25–45°C[3]。DLC 的熱傳效率極高,可移除晶片 70–80% 的熱量,剩餘的記憶體、VRM 與硬碟散熱仍需少量氣冷輔助。
單相浸沒式冷卻(Single-Phase Immersion)
將整塊伺服器主機板浸泡在不導電的介電冷卻液中,利用液體的對流循環移除熱量。冷卻液在槽內保持液態,透過外部熱交換器將熱量傳遞至設施冷卻水。單相浸沒可處理每槽 100–200 kW 的散熱需求,且幾乎完全消除風扇噪音[7]。
兩相浸沒式冷卻(Two-Phase Immersion)
兩相浸沒利用低沸點介電液在晶片表面產生相變(液態沸騰為氣態),藉由蒸發潛熱吸收大量熱能。氣態冷卻液上升至槽頂的冷凝器凝結後回流,形成自驅動的散熱循環。兩相浸沒的散熱效率是所有液冷技術中最高的,但對冷卻液的純度與系統密封性要求也最嚴格。
四種液冷技術比較
| 技術類型 | 單櫃/單槽散熱 | IT 設備改動 | 水進入 IT 空間 | 相對成本 | 適用場景 |
|---|---|---|---|---|---|
| RDHx | 30–50 kW | 無 | 僅後門 | 低 | 既有機房升級 |
| DLC | 50–120+ kW | 冷板安裝 | 是(歧管至機櫃) | 中 | AI/HPC 新建或擴建 |
| 單相浸沒 | 100–200 kW | 主板重新設計 | 全浸沒 | 高 | 超高密度/邊緣運算 |
| 兩相浸沒 | 100–250+ kW | 主板重新設計 | 全浸沒 | 最高 | 極端密度/研究型 |
三、直接液冷 DLC 系統設計
DLC 是當前 AI 資料中心部署量最大的液冷方案,其系統設計涵蓋冷卻液分配單元(CDU)、冷卻液選擇、歧管配管與漏液偵測等關鍵環節。
冷卻液分配單元(CDU)
CDU 是 DLC 系統的心臟,負責將設施側冷卻水(Facility Water)的冷量透過板式熱交換器傳遞至 IT 側冷卻液迴路,同時維持 IT 側冷卻液的壓力、流量與溫度穩定。一套典型的 CDU 包含:
- 板式熱交換器:將設施側冷卻水(約 15–25°C)與 IT 側冷卻液進行熱交換,兩側迴路物理隔離
- 循環泵浦:驅動 IT 側冷卻液流經各機櫃冷板,通常配置冗餘(N+1)泵浦
- 膨脹罐與補液系統:維持迴路壓力穩定並補償冷卻液的微量損耗
- 過濾器與離子交換樹脂:維持冷卻液的清潔度與電導率在安全範圍內
- 流量與溫度感測器:提供即時監控數據予 BMS 或 DCIM 系統
CDU 的容量選型需考慮所服務機櫃的總散熱量、冷卻液的流量需求(通常為 4–8 LPM/kW),以及設施側冷卻水的供水溫度與流量限制。在台灣的高溫環境下,設施側冷卻水溫度在夏季可能達到 30–35°C,CDU 的熱交換器需要留足裕度[8]。
冷卻液選擇
DLC 系統中最常見的冷卻液為去離子水或丙二醇水溶液。去離子水具有最佳的比熱容與導熱性,但需要嚴格控制電導率(通常低於 1 μS/cm)以降低漏液時的短路風險。丙二醇水溶液(25–40% 濃度)提供額外的防凍與防腐蝕保護,但比熱容降低約 10–15%,需相應增加流量補償。冷卻液的 pH 值需維持在 7.0–8.5 之間,避免對銅、鋁等金屬配件產生腐蝕。
歧管配管設計
DLC 的配管系統從 CDU 出發,經由主管路分配至各機櫃列,再透過歧管(Manifold)分配至各機櫃內的冷板。設計要點包括:
- 材質選擇:不鏽鋼或銅管為主幹,機櫃內部以撓性軟管(如 EPDM 或不鏽鋼編織軟管)連接冷板,便於維護抽換
- 壓力等級:IT 側迴路壓力通常控制在 2–4 bar,避免管路接頭承受過高壓力
- 熱膨脹補償:長距離直管段需設置伸縮接頭或自然彎曲段
- 抗震設計:台灣位處地震帶,液冷管路需遵循建築抗震規範進行支撐設計,關鍵接頭應採用撓性連接
漏液偵測與防護
液體進入 IT 空間是 DLC 最大的風險因子。完善的漏液偵測系統應包含三道防線:
- 第一道:接頭處感應線纜——在所有快速接頭(Quick Disconnect)與歧管接點處佈設感應線纜,偵測微量滲漏
- 第二道:機櫃底部集水盤——每座機櫃底部安裝集水盤與水位感測器,作為接頭外洩的承接屏障
- 第三道:高架地板下感應線纜——沿管路走向鋪設連續式感應線纜,提供區域性漏液告警
漏液事件應與 CDU 的自動隔離閥連動——當任一區段偵測到漏液,系統自動關閉該區段的供回水電磁閥,將洩漏範圍限制在最小區段,同時發送告警至監控中心。
四、浸沒式冷卻系統設計
浸沒式冷卻將散熱的精度推向極致——整塊主機板沉浸在介電液中,所有發熱元件均在液態環境中運作。這消除了晶片到散熱片、散熱片到空氣的兩道熱阻,大幅降低了元件的工作溫度。
介電液特性
浸沒式冷卻的介電液必須同時滿足電氣絕緣、化學穩定、低毒性與適當熱物性等要求。目前市場上的主流產品包括合成碳氫化合物(如 Shell S5 X)、氟化液體(如 3M Novec 7100 系列)與矽氧烷基流體[7]。關鍵參數包括:
- 介電強度:通常大於 40 kV/2.5mm,確保在任何工況下不會產生電弧
- 運動黏度:影響自然對流效率,低黏度液體的對流速度更快
- 閃火點:碳氫類介電液的閃火點通常在 160–200°C,需納入消防安全評估
- GWP(全球暖化潛勢):氟化液體的 GWP 可能高達數百至數千,部分產品因 F-gas 法規而面臨淘汰壓力
- 密度:1.0–1.8 kg/L,直接影響槽體承重與樓板載重設計
槽體設計
浸沒式冷卻槽取代了傳統機櫃的角色,其設計需考量:
- 結構承重:一座滿載的浸沒槽(含介電液)重量可達 1,500–2,500 kg,遠超傳統機櫃的 300–500 kg,機房樓板的承載力需達到 15–25 kN/m2
- 槽體材質:不鏽鋼(SUS 304/316)或鋁合金為主流選擇,需確保與介電液的化學相容性
- 伺服器載具:伺服器主板以垂直或水平方式插入槽中的專用載具,設計需兼顧散熱效率與抽換維護的便利性
- 溢流與液位控制:液面高度需維持在所有元件之上,且留有足夠的膨脹裕度
散熱迴路設計
單相浸沒式冷卻的散熱迴路相對單純:槽內介電液受熱後自然上升,經由槽頂或側面的熱交換器將熱量傳遞至設施冷卻水迴路,冷卻後的介電液沉降回槽底形成自然循環。部分設計會加裝循環泵浦強化液體流動,提升散熱均勻性。
兩相浸沒式的散熱迴路更加精巧:介電液在晶片表面沸騰產生氣泡,氣態冷卻液上升至液面上方的空間,接觸槽頂的冷凝器(通常為水冷盤管)凝結為液態後滴落回液面。這個過程完全由相變驅動,無需任何泵浦或風扇,是真正的被動式散熱。冷凝器的設計容量需匹配峰值散熱負載,且需設置安全閥應對異常壓力升高。
維護流程的範式轉移
浸沒式冷卻對 IT 維運流程帶來根本性的改變。伺服器的更換需要從介電液中提取主板,過程中需處理殘液回收、元件清潔與液面補充。維護人員需要專用工具與訓練,更換一片主板的時間從傳統氣冷的 5–10 分鐘延長至 20–40 分鐘。介電液的定期品質檢測(酸價、含水量、介電強度)也成為例行維護的新項目。
五、混合冷卻架構:氣冷+液冷的過渡策略
多數資料中心不會一步到位全面液冷化,而是採取混合冷卻架構作為過渡策略。這既是成本考量,也反映了 IT 設備世代交替的現實——同一座機房中可能同時存在純氣冷的儲存伺服器與需要液冷的 GPU 運算機櫃。
改造路徑規劃
典型的氣冷轉液冷改造可分為三個階段:
- Phase 1 — RDHx 導入:在現有高密度機櫃加裝後門式散熱器,不改動 IT 設備,僅需增設冷卻水管路至機櫃列端,可將單櫃散熱能力從 15 kW 提升至 40 kW
- Phase 2 — DLC 專區建置:在新建或改造的區域部署 CDU 與 DLC 歧管系統,專門服務 GPU 運算機櫃。此階段需規劃 CDU 機房空間、管路走向與漏液偵測系統
- Phase 3 — 浸沒式冷卻評估:對於下一代超高密度機櫃(150 kW+),評估浸沒式冷卻的導入可行性,包含樓板承重、消防法規與維運流程的全面調整
混合模式的工程考量
在氣冷與液冷並存的混合架構中,幾個關鍵的工程議題需要妥善處理:
- 溫度分區管理:液冷區的排熱溫度較高(40–50°C),若排入機房環境可能影響氣冷區的進風條件。需透過氣流管理或獨立的排熱迴路隔離
- 冷卻水系統整合:CDU 的設施側冷卻水需與既有的冰水系統或冷卻水塔系統整合,水量、水壓與水質管理成為跨系統協調的課題
- 電力分配:液冷區的機櫃功耗密度遠高於氣冷區,電力匯流排(Busway)與不斷電系統(UPS)的容量規劃需要差異化設計
- 監控系統統一:氣冷與液冷的監控參數差異甚大,BMS 或 DCIM 系統需要整合溫度、流量、壓力與漏液等異質感測數據
預留設計的重要性
即使當前尚未部署液冷,新建資料中心應在設計階段預留液冷的擴充能力:
- 預留 CDU 機房空間與管道貫穿孔
- 冷卻水系統容量預留 30–50% 的擴充裕度
- 高架地板下預留液冷管路走向空間
- 樓板設計承重以浸沒式冷卻的需求為基準(15 kN/m2 以上)
- 電力系統預留高密度機櫃的容量需求
正在規劃 AI 資料中心的液冷散熱方案?與我們的技師團隊聯繫,取得符合台灣在地條件的液冷系統設計建議。
六、廢熱再利用與永續效益
液冷技術帶來的一個重要附加價值是高品位廢熱(High-Grade Waste Heat)的回收利用。傳統氣冷資料中心的排氣溫度僅 30–35°C,能利用的場景有限。但液冷系統——尤其是 DLC——的冷卻液出口溫度可達 45–60°C[9],這個溫度等級開啟了多元的廢熱再利用可能。
廢熱回收應用場景
- 區域供暖:北歐多國已將資料中心廢熱納入城市供暖管網,芬蘭的資料中心廢熱回收比例已超過 40%
- 農業溫室:利用 45–55°C 的廢熱水為溫室提供加溫,延長作物生長季節[10]
- 工業預熱:作為工業製程中原料或清洗水的預熱熱源,取代部分鍋爐負載
- 吸附式/吸收式空調:以 50–60°C 的廢熱驅動吸附式冷凍機,將廢熱轉化為冷量供辦公區域空調使用
- 海水淡化:在沿海地區,廢熱可用於低溫多效蒸餾(MED)海水淡化
碳排減量效益
液冷系統對資料中心碳排放的減量效益是多重的。首先,液冷本身的散熱效率高於氣冷,風扇能耗大幅降低,PUE 可從氣冷的 1.3–1.5 降至 1.05–1.15[5]。其次,較高的冷卻液溫度擴大了自然冷卻(Free Cooling)的可用時數——在台灣高雄地區,以 40°C 為冷卻液回水溫度計算,全年約有 65–75% 的時段可以僅靠冷卻水塔散熱而無需啟動冷凍機[8]。再加上廢熱回收替代傳統加熱能源,液冷資料中心的碳排放可較傳統氣冷設計減少 30–50%。
歐盟的《Energy Efficiency Directive》修訂版(2023/1791)已要求額定功率超過 500 kW 的資料中心自 2025 年起揭露 PUE、WUE 與廢熱再利用比例。這項法規趨勢預示著廢熱回收將從「加分項」轉變為「合規要求」,也為液冷系統的投資提供了額外的政策驅動力。
結語
從後門式散熱器到直接晶片液冷,從單相浸沒到兩相浸沒——液冷技術為 AI 時代的資料中心散熱提供了一條清晰的升級路徑。這不只是冷卻方式的改變,更是資料中心工程從「風管與出風口」轉向「管路與熱交換器」的典範轉移。對台灣的資料中心產業而言,高溫高濕的氣候條件反而讓液冷的節能優勢更加顯著——較高的冷卻液溫度與充沛的冷卻水塔散熱潛力,使得液冷系統在熱帶環境中的 PUE 表現甚至可能優於溫帶地區。工程團隊需要的是紮實的系統設計能力、嚴謹的管路施工品質,以及對新技術的持續學習與實踐。