應對AIGC算力挑戰,《開放加速規范AI服務器設計指南》正式發布
“我們把指南公開的一個最核心目的,就是讓大家少走一些彎路,減少開發迭代的成本。讓AI芯片流片回來,能夠更快地變成系統化的算力,從而讓更多的用戶享受AI算力。”8月10日,在2023開放計算中國社區技術峰會(OCP China Day 2023)上,浪潮信息服務器產品線總經理趙帥表示。
當天,《開放加速規范AI服務器設計指南》(下稱“指南”)作為開放計算產業成果在OCP 2023上正式發布。
(資料圖)
圖| 《開放加速規范AI服務器設計指南》(來源:資料圖)
毋庸置疑,在AIGC領域的發展熱潮下,“AI大模型”已經成為2023年的年度熱詞。當國內外企業先后推出AI大模型的同時,AI算力需求也迎來爆發式增長。以OpenAI發布的GPT-3為例,訓練該模型所需的總算力消耗達到3640 PetaFLOP/s-days(PD),需要使用10000塊GPU以及花費30天時間,才能完成1750億參數的訓練。由此可見大模型研發是一項復雜的系統工程,其背后既需要海量的數據集,又要有能對千億級參數大模型進行分布式訓練的AI服務器集群。在這種發展態勢下,必定需要具備更高擴展性的單機和加速比更高的集群,也會對網絡帶寬、延遲和卡間互聯提出更高的要求。
為進一步破解算力供需難題,支持更高的功耗以及帶來更強大的卡間互聯能力,目前全球已有上百家公司參與到新型AI芯片的研發中,并已推出諸多非標準PCIe CEM形態的AI加速卡。AI計算芯片的發展,正在朝著多元化的趨勢邁進。不過,由于缺乏統一的業界規范,不同廠商推出的新形態AI加速卡也各不相同。這不僅會拉高算力產業的成本,還會降低產品的靈活性,反過來又給AI加速器的研發和應用帶來極大阻礙。
在此背景之下,《開放加速規范AI服務器設計指南》應運而生。
《開放加速規范AI服務器設計指南》:四大設計原則和全棧設計方法
指南提出四大設計原則和全棧設計方法,目的在于幫助社區成員更快、更好地開發符合開放加速規范的OAM(OCP Accelerator Module,AI加速卡模塊),并提供能夠更好匹配應用場景的多元AI算力產品方案。四大設計原則主要包括:應用導向原則、多元開放原則、綠色高效原則、統籌設計原則。
在應用導向上,該指南堅持無論是加速卡設計還是系統設計,都聚焦實際應用場景的原則,在充分考慮業務特點、模型特征和部署環境的基礎之上,自上而下地設計和規劃開放加速計算系統,避免過度冗余設計,以及因盲目追求性能而帶來的時間、空間、資源和成本方面的浪費,以實現高效適配和部署,從而節省產業和社會總成本。
在多元開放上,通過開源和開放的方式,建立可兼容底層硬件差異的異構協同開發平臺,在打通人工智能軟硬件產業鏈的同時,為開放加速計算技術和產業生態的壯大作出貢獻。
在綠色高效上,加速液冷散熱、高效供配電、能效監測、智能運維等技術,專注于開放加速計算節點和集群層面的布局和應用。
在統籌設計上,從規模化算力部署的角度出發,不僅統籌考慮了大模型分布式訓練對于計算、網絡和存儲的需求,還構建了高性能、高速互聯和存算平衡的可擴展集群系統,以便滿足AI大模型的訓練需求。
全棧設計方法,指的是指南給出了詳細的開放加速規范AI服務器的設計方法,包括多維協同設計、全面系統測試和性能測評調優。
多維協同設計,是指從節點到集群的軟硬全棧參考設計,旨在通過全方位、多維度協同芯片和系統廠商,來盡可能地減少定制開發內容,更好地實現包含計算、存儲、網絡設備等在內的一體化高集成度算力集群。在這之中,本次指南重點關注AI服務器節點內和集群節點間的互聯通信能力的提升。
全面系統測試是指全面梳理結構、散熱、壓力、穩定性、軟件兼容性等方面的測試要點。由于架構復雜度高、芯片種類多、系統功耗大等原因,會提高異構加速計算節點的故障率,因此只有采用更全面、更嚴苛的測試條件,才能降低系統的故障風險,并提高系統穩定性。
在性能測評調優上,為了確保開放加速規范AI服務器能夠給主流大規模模型提供創新應用支撐,指南給出了關于基礎性能、互連性能、模型性能測試的要點和指標,以及關于大模型訓練和推理性能調優的要點。
浪潮信息AI&HPC產品線高級產品經理張政表示:“(有了指南之后)對于我們的芯片合作伙伴來講,能夠快速開發新型的AI芯片,節省開發周期、減少開發成本、加速產品的升級和迭代;另一方面,也能幫助我們的最終用戶按照實際應用場景,選擇多元算力解決方案。最終目標是協同產業鏈上下游的合作伙伴,共同應對當前生成式人工智能時代的算力挑戰。”
據了解,本次指南主要面向兩類客戶。首先,設計原則是基于用戶在產業發展或算力應用上遇到的痛點。比如,許多用戶在建設新數據中心時,會面臨極高的能耗指標要求,所以需要通過先進的液冷等散熱技術,將整個數據中心的電能利用效率提升到更高水平,而這也是綠色高效原則的必要性所在。其次,設計方法則更多是面向芯片合作伙伴,能夠幫助他們更快地完成產品的開發和迭代,減少試錯成本。
如前所述,該指南可以為用戶提供多元化的算力產品方案,那對于終端用戶來說,其又將獲得哪些直觀的感受呢?簡單來說就是,這讓AI芯片可以并行擴展到諸多節點,在生活和工作的應用中也具有較高的穩定性和效率,也讓先進算力的成本變得更加普惠和普適。
浪潮信息服務器產品線總經理趙帥表示:“指南實際上是AI加速卡模塊整體設計規范進一步的細化詮釋,并且是根據我們的實際案例給大家提供了更加明確的標準和測試用例。當我們制定一個更加細化的標準之后,就能幫助企業大大縮短從芯片到系統的時間,并大大減少其開發費用和開發周期,更快地釋放算力的價值,這是我們現在設計指南最大的價值。”
降低技術成本,推動技術普及
事實證明,在為產業發展賦能的過程中,實現產業標準的統一開放,能夠有效降低技術成本并推動技術普及。而浪潮信息在開放加速方面的優勢,主要體現在布局早和擁有充足的產業落地經驗這兩方面。目前,已有包括浪潮信息、Intel Habana、燧原科技、百度等10+廠商,通過開放、合作為市場推出10余款符合OAM標準的開放加速AI服務器,并在全球范圍內開展了實踐。舉例來說:
2019年,在開放加速器基礎設施小組成立之初,浪潮信息作為核心成員主導了AI加速卡基板 OAM-UBB SPEC設計規范的制定,并發布了全球首個通用加速器基板UBB,以給各類AI加速器提供支持。2020年,OAI(OpenAccelerator Infrastructure)小組發布首個AI開放加速計算系統MX1,提供兩種互連拓撲,能夠幫助用戶基于不同的深度學習模型和芯片通信需求,靈活地設計芯片互連方案。2021年,浪潮信息發布首款All in One開放加速計算整機NF5498A5,能在數據中心里實現快速落地和部署。
燧原科技是國內第一家發布并量產OAM的國內AI芯片公司,分別于2019年和2021年基于兩代“邃思”訓練芯片發布了“云燧T11/T21”OAM模組。
2022年,浪潮信息與其聯合發布“錢塘江”智算中心方案,可實現千芯級大規模集群高速互聯,單集群200P峰值AI算力,單節點承載8顆400W高性能液冷OAM模組,支持50℃高溫水運行,采用先進變頻流量系統,通過提高流量變化范圍降低能耗, 智算中心整體PUE優于1.1。“錢塘江”方案能有效支撐超千億參數巨量模型的高效、并行訓練。目前,該方案已在大型實驗室落地1280卡規模的全液冷AI訓練集群。正是在這樣一個產業化落地的過程中,讓浪潮信息能夠將這些經驗進行轉化為本次指南并推向大眾。
未來,浪潮信息在加速多元算力應用的同時,也會讓指南更快落地并實現更多價值。同時,其也將進一步提高算力的利用效率,爭取在有限的算力條件下,幫助更多企業更快地訓練AI大模型。
關鍵詞:
[責任編輯:xwzkw]
相關閱讀
- (2023-08-16)應對AIGC算力挑戰,《開放加速規范AI服務器設計指南》正式發布
- (2023-08-16)金正大(002470.SZ):公司正在積極部署智慧農業、數字農業相關的業務
- (2023-08-16)AI大模型加持疊加旺季來臨 消費電子產業鏈醞釀重生
- (2023-08-16)自治區第十四屆運動會 | 一枚女足金牌和20年足球情緣
- (2023-08-16)青海省發布沱沱河洪水紅色預警
- (2023-08-16)微軟最新更新解決了NVMe SSD性能問題:用戶速度變快了
- (2023-08-16)生物谷:上半年凈虧398.69萬元,同比由盈轉虧
- (2023-08-16)三伏近尾聲!高溫迎來最后瘋狂 出伏后還要熱多久?
- (2023-08-16)回復微信新年祝福別樣神回復大全
- (2023-08-16)2023年暑期檔共4部影片票房突破20億 創影史新高
- (2023-08-16)京西重工線控制動業務突破歐洲市場 計劃建立歐洲生產線
- (2023-08-16)錦富技術(300128.SZ):收購天馬化工利于公司向上游電子材料領域進行布局
- (2023-08-16)國家統計局:2023年7月份社會消費品零售總額增長2.5%
- (2023-08-16)第五人格黑白熊問答怎么玩 黑白熊問答答案匯總
- (2023-08-16)遼寧下發通知 加快水利工程建設和資金支付進度
- (2023-08-16)東方盛虹(000301.SZ):一期10萬噸磷酸鐵鋰將著手準備開工建設
- (2023-08-16)券商二季度積極調倉 聚焦電子醫藥生物
- (2023-08-16)吉利旗下全新品牌極越汽車官宣,與百度合作
- (2023-08-16)蔥花油墩(關于蔥花油墩簡述)
- (2023-08-16)百亞股份(003006.SZ):線上渠道毛利率有望實現穩中有升
- (2023-08-16)今年上半年冷鏈物流持續企穩回升 支持行業發展的積極因素不斷增多
- (2023-08-16)晶合集成:2023年半年度凈利潤約-4361萬元
- (2023-08-16)增添新動能 塑造新優勢——石家莊加快推進重點項目建設一線見聞
- (2023-08-16)《裝甲核心6》PC配置公布 1650即可一戰
- (2023-08-16)西北地區降水頻繁涼意顯 江南華南高溫悶熱天氣頻現
- (2023-08-16)扎根大山深處的環衛工人
- (2023-08-16)拯救者Y9000P/Y7000P電競本開啟預售!7299元起
- (2023-08-16)“秋韻”(28)|上游主題攝影征稿作品展——閔杰作品
- (2023-08-16)國家統計局:前7月房地產開發企業到位資金7.8萬億元,同比下降11.2%
- (2023-08-16)國家統計局:7月全國網上零售額83097億元 同比增長12.5%





