1.6T網(wǎng)絡(luò):下一代AI數(shù)據(jù)中心的核心引擎

大規(guī)模人工智能模型與智能體技術(shù)的迅猛發(fā)展,正在重新定義數(shù)據(jù)中心基礎(chǔ)設(shè)施的設(shè)計原則。為滿足超大規(guī)模訓(xùn)練的需求,數(shù)據(jù)中心正從傳統(tǒng)的服務(wù)器中心化結(jié)構(gòu),轉(zhuǎn)向更加解耦、以機架為單位構(gòu)建的架構(gòu)。此類架構(gòu)以高密度GPU集群為核心,通過跨服務(wù)器協(xié)調(diào)計算、存儲與內(nèi)存資源,為AI訓(xùn)練提供持續(xù)的高效支持。

與此同時,分布式訓(xùn)練規(guī)模的擴大使互連網(wǎng)絡(luò)面臨前所未有的壓力。模型參數(shù)的頻繁同步導(dǎo)致巨量的雙向通信,對網(wǎng)絡(luò)帶寬、延遲與拓?fù)浣Y(jié)構(gòu)提出更高要求。在這種背景下,1.6T網(wǎng)絡(luò)成為下一代AI集群的關(guān)鍵基礎(chǔ),其提升的帶寬密度與通信效率對于保持GPU利用率與集群可擴展性至關(guān)重要。

1.6T網(wǎng)絡(luò):下一代AI數(shù)據(jù)中心的核心引擎

AI網(wǎng)絡(luò)瓶頸與1.6T擴展需求


1.計算密度提升引發(fā)的互連壓力

隨著NVIDIA B300和GB300(Blackwell Ultra)架構(gòu)在2026年進入部署階段,AI集群的計算密度進一步攀升。單顆GPU即可達(dá)到超過14PFLOPS的FP4性能,使得網(wǎng)絡(luò)從輔助組件轉(zhuǎn)變?yōu)橄拗普w系統(tǒng)吞吐的關(guān)鍵因素。

在此背景下,傳統(tǒng)網(wǎng)絡(luò)能力已難以滿足模型訓(xùn)練中高速同步的需求,尤其是在執(zhí)行All-Reduce、All-to-All等集體通信時,網(wǎng)絡(luò)易成為性能瓶頸。

2.從800G到1.6T:帶寬需求的根本變化

隨著GB300NVL72等高密度機架架構(gòu)進入生產(chǎn)環(huán)境,單個Pod就能夠提供百億億次級(Exascale級)計算能力,隨之而來的是指數(shù)級增長的“東西向”通信流量。

傳統(tǒng)的800G網(wǎng)絡(luò)在2024年仍能滿足主流集群需求,但在更高吞吐GPU出現(xiàn)后,800G已無法支撐同步梯度交換所需的帶寬,導(dǎo)致通信階段延遲放大并降低GPU利用率。為消除這一瓶頸,業(yè)界正系統(tǒng)性地向1.6T網(wǎng)絡(luò)(例如基于ConnectX-8的架構(gòu))遷移。

3.計算效率與200G/224GSerDes的關(guān)鍵作用

新一代GPU的性能增幅推動物理層互連技術(shù)加速發(fā)展。為避免GPU因數(shù)據(jù)供應(yīng)不足而處于空閑狀態(tài)(即“數(shù)據(jù)饑餓”),互連系統(tǒng)必須同步提升吞吐能力。

224GSerDes技術(shù)成為實現(xiàn)1.6T網(wǎng)絡(luò)的核心基礎(chǔ),其單通道吞吐量是上一代的兩倍,可在有限的能耗和散熱條件下提供更高I/O密度。這對于大規(guī)模訓(xùn)練環(huán)境至關(guān)重要,因為訓(xùn)練過程中的每一秒延遲都會產(chǎn)生顯著經(jīng)濟成本并影響集群投資回報率。

4.傳統(tǒng)架構(gòu)的可擴展性邊界

在十萬GPU級別的集群設(shè)計中,基于800G的多層Clos架構(gòu)逐步顯露出以下限制:

  • 交換機與光模塊數(shù)量隨規(guī)??焖僭鲩L
  • 網(wǎng)絡(luò)跳數(shù)增多導(dǎo)致尾延遲上升
  • 全對全通信的開銷成倍增加
  • 系統(tǒng)能耗與部署成本持續(xù)攀升

因此,在追求接近線性的性能擴展時,遷移至1.6T網(wǎng)絡(luò)成為不可避免的趨勢。

為什么1.6T網(wǎng)絡(luò)成為下一代AI數(shù)據(jù)中心的方向?


1.架構(gòu)層面的扁平化與低延遲優(yōu)勢

1.6T網(wǎng)絡(luò)最顯著的價值在于提升單端口帶寬密度,從而支持構(gòu)建更扁平、更高基數(shù)(如51.2T/102.4TASIC)的交換網(wǎng)絡(luò)架構(gòu)。通過減少交換層級與中間跳數(shù),可以顯著降低端到端延遲。

這種優(yōu)化對于執(zhí)行高頻同步操作的訓(xùn)練集群至關(guān)重要,尤其是在BlackwellUltra架構(gòu)中,All-Reduce等集體通信密集依賴網(wǎng)絡(luò)性能。

2.關(guān)鍵物理層技術(shù)的成熟

224GSerDes、OSFP1600光模塊以及PAM4信令的工業(yè)化,為1.6T互連提供了穩(wěn)定且高效的物理層基礎(chǔ)。其優(yōu)勢包括:

  • 更高的能效比
  • 更高的端口密度
  • 更優(yōu)的散熱適配
  • 可在相同機架空間內(nèi)實現(xiàn)更高帶寬

這些技術(shù)的發(fā)展確保1.6T網(wǎng)絡(luò)能夠滿足下一代AI集群的嚴(yán)格功耗與穩(wěn)定性要求。

3.標(biāo)準(zhǔn)化與生態(tài)系統(tǒng)的推進

面向1.6T架構(gòu)的開放行業(yè)標(biāo)準(zhǔn),如224GSerDes協(xié)議、OSFP1600封裝形式,正在推動供應(yīng)鏈與硬件生態(tài)的快速成熟,使得超高密度部署在互操作性與可靠性方面得以保障。

4.面向未來的網(wǎng)絡(luò)內(nèi)計算方向

隨著InfiniBandXDR等新一代互連技術(shù)推出,網(wǎng)絡(luò)功能正在從傳統(tǒng)的數(shù)據(jù)轉(zhuǎn)發(fā)角色,擴展到執(zhí)行部分與訓(xùn)練相關(guān)的計算任務(wù)(即“網(wǎng)絡(luò)內(nèi)計算”)。在超大規(guī)模AI工廠中,這種變化能夠進一步提升整體性能與資源利用效率,為百億億次級AI訓(xùn)練提供基礎(chǔ)設(shè)施支撐。

總結(jié)


隨著AI模型規(guī)模持續(xù)增長,網(wǎng)絡(luò)已成為推動數(shù)據(jù)中心能力演進的核心驅(qū)動力。1.6T網(wǎng)絡(luò)不僅是帶寬的簡單提升,更是支撐未來AI訓(xùn)練體系的重要基礎(chǔ)設(shè)施革新,包括:

  • 更高GPU利用率
  • 更高網(wǎng)絡(luò)效率
  • 更強的集群可擴展性
  • 更低的延遲與更扁平的拓?fù)?/li>
  • 面向網(wǎng)絡(luò)內(nèi)計算的演進潛力

在這一趨勢下,構(gòu)建面向1.6T互連的下一代數(shù)據(jù)中心,將成為未來智能計算基礎(chǔ)設(shè)施升級的關(guān)鍵方向。