
5月14日消息,阿里云AI高性能網絡架構HPN 7.0成果論文被SIGCOMM2024收錄,成為SIGCOMM歷史上首篇關于AI智算集群網絡架構的論文。SIGCOMM是全球最權威的計算機通信網絡頂會,此前谷歌Jupiter網絡入選SIGCOMM后發展成為經典架構,有專家指出,阿里云HPN7.0有望成為下一代AI高性能網絡架構的新范式。據悉,今年阿里云共有6篇論文被SIGCOMM收錄。
大模型對AI基礎設施提出了更高要求,阿里云新一代HPN7.0架構,為AI時代超大規模、超高穩定性的網絡需求而研發。HPN 7.0創新性地設計了“雙上聯+多軌+雙平面”的網絡架構,并自研Solar-RDMA和ACCL通信庫,可實現網絡的高性能和高穩定互聯。

(HPN7.0架構:為AI設計的高性能網絡集群)
從2023年9 月開始,HPN7.0在阿里云展開大規模部署,大模型訓練性能較上一代架構在典型場景下提升14.9%,且大幅提高了智算網絡整體穩定性。前不久阿里云發布通義千問2.5版本大模型,中文性能全面趕超GPT-4Turbo,就是基于HPN7.0高性能網絡集群訓練而成。
阿里云基礎設施網絡負責人蔡德忠介紹稱:“阿里云從2017年開始探索端網融合的可預期網絡,HPN7.0更進一步,把端網融合的體系結構從網絡協議棧拓展到網絡架構和通信庫,實現了面向AI智算時代的全新網絡集群架構創新。”
據悉,始于1977年的SIGCOMM是計算機網絡領域最頂級的國際學術會議,每年錄取率在10%~20%之間,入選成果極有可能成為主流技術范式標準。此前,谷歌傳統數據中心網絡Jupiter論文SIGCOMM收錄,成為經典架構;此次阿里云HPN7.0架構斬獲SIGCOMM首篇AI高性能網絡論文,則是中國公司首次為全球AI網絡基礎設施的設計及實踐提供了全新高性能標準。
阿里云在高性能網絡領域已深耕多年,提出了端網融合的可預期網絡技術體系,并在業界率先完成RDMA低延時網絡、智算集群網絡架構HPN 7.0等先進技術的大規模實踐。阿里巴巴還曾獲評AMiner全球十大網絡研究機構,是榜單中唯一的中國科技企業。

