9月20日消息,中國電信宣布,天翼云自研的國內(nèi)首個單集群萬卡國產(chǎn)化全功能預訓練云服務平臺,已經(jīng)正式發(fā)布上線,基于華為昇騰芯片,并完成了萬卡規(guī)模Llama3.1-405B大模型訓練。
Llama3.1-405B作為4000億參數(shù)規(guī)模的大模型,在息壤訓推服務平臺的支持下,經(jīng)過多輪優(yōu)化,MFU(算力利用率)達到國內(nèi)領先水平。
另外,700億參數(shù)大模型Llama2-70B在萬卡規(guī)模下完成訓練,MFU也處于業(yè)界領先水平。
據(jù)悉,天翼云的這套平臺具備萬卡納管和并行訓練能力,基于HPFS PB級并行文件系統(tǒng)、CTCCL RDMA高速卡間互聯(lián)技術、Gang策略與拓撲感知的智算容器調(diào)度,以及慧聚自研分布式訓練框架TeleFormers和平臺,實現(xiàn)萬卡資源納管、萬卡規(guī)模并行訓練。
其中,天翼云自研了AI框架Teleformers,對算子、通信、數(shù)據(jù)處理進行優(yōu)化,還有并行策略的自適應調(diào)整,顯著提升了大模型訓練的訓練效率。
在目前業(yè)內(nèi)大參數(shù)規(guī)模開源單體稠密模型Llama3.1-405B大模型訓練測試中,性能表現(xiàn)達到國際同等水平。
算子優(yōu)化方面,針對昇騰芯片的特性,在網(wǎng)絡結構層面對諸多高頻算子進行了定制化改造,構建了高性能算子集。
比如matmul算子,利用昇騰芯片的計算親和性,將算子輸入padding到特定的維度,大幅提升執(zhí)行效率,從而明顯縮短了訓練時間。
數(shù)據(jù)處理和流水線方面,通過設置合理的數(shù)據(jù)分片策略和HPFS條帶化優(yōu)化,結合數(shù)據(jù)預取與數(shù)據(jù)下沉技術,大幅提升數(shù)據(jù)流的處理效率和穩(wěn)定性;對預處理后的數(shù)據(jù)集進行了二次分片并提供就近緩存能力,減少GPU空閑時間。
自適應并行策略方面,基于對3D并行中各類計算單元的分析,天翼云設計了多種自適應的3D并行策略,依據(jù)模型規(guī)模和硬件資源的不同可以自動選擇合適的并行策略,充分利用計算資源和顯存資源,縮短模型訓練中每輪的迭代時間。
天翼云國產(chǎn)化萬卡智算中心還有多項技術突破——
天翼云息壤訓練服務平臺基于軟硬件協(xié)同設計,提供全鏈路故障監(jiān)控、基于主動感知的全鏈路故障監(jiān)控和定位、CheckPoint秒級多級高速存儲系統(tǒng)、容錯優(yōu)雅調(diào)度和模型編譯緩存等系統(tǒng),將萬卡規(guī)模故障發(fā)現(xiàn)和解決問題縮短到業(yè)內(nèi)前沿的分鐘級,大幅提升有效訓練時間。
自動斷點續(xù)訓系統(tǒng):
建設豐富的故障庫,基于此構建了多維故障感知系統(tǒng),能夠快速主動感知相關故障事件和潛在的故障風險;
通過精準的故障隔離和調(diào)度手段,快速隔離處理故障節(jié)點并重新調(diào)度新節(jié)點接手任務繼續(xù)訓練,實現(xiàn)無人干預式斷點續(xù)訓,有效減少GPU閑置時間。
高速多級CheckPoint系統(tǒng):
天翼云設計基于多級存儲的高速CheckPoint系統(tǒng),通過兩階段異步存儲,實現(xiàn)高速寫入內(nèi)存,并終異步寫入遠端系統(tǒng);
針對斷點恢復場景,提供進程級故障原地快恢和遠端快速恢復能力,終實現(xiàn)對CheckPoint的秒級讀寫能力,大幅降低斷點恢復時間、提升訓練效率。
全鏈路檢測工具鏈:
天翼云開發(fā)了全鏈路故障監(jiān)控工具鏈,能夠基于主動感知實現(xiàn)全鏈路的故障監(jiān)控和定位。
該工具鏈可以主動發(fā)現(xiàn)設備故障,并降低訓練中斷的頻次,確保訓練過程的連續(xù)性和穩(wěn)定性。
本文鏈接:http://m.zh1234.com/news13664.html中國電信天翼云完成首個國產(chǎn)GPU萬卡訓練!4000億參數(shù)大模型領先