9月20日消息,中國電信宣布,天翼云自研的國內(nèi)首個單集群萬卡國產(chǎn)化全功能預(yù)訓(xùn)練云服務(wù)平臺,已經(jīng)正式發(fā)布上線,基于華為昇騰芯片,并完成了萬卡規(guī)模Llama3.1-405B大模型訓(xùn)練。
Llama3.1-405B作為4000億參數(shù)規(guī)模的大模型,在息壤訓(xùn)推服務(wù)平臺的支持下,經(jīng)過多輪優(yōu)化,MFU(算力利用率)達(dá)到國內(nèi)領(lǐng)先水平。
另外,700億參數(shù)大模型Llama2-70B在萬卡規(guī)模下完成訓(xùn)練,MFU也處于業(yè)界領(lǐng)先水平。
據(jù)悉,天翼云的這套平臺具備萬卡納管和并行訓(xùn)練能力,基于HPFS PB級并行文件系統(tǒng)、CTCCL RDMA高速卡間互聯(lián)技術(shù)、Gang策略與拓?fù)涓兄闹撬闳萜髡{(diào)度,以及慧聚自研分布式訓(xùn)練框架TeleFormers和平臺,實現(xiàn)萬卡資源納管、萬卡規(guī)模并行訓(xùn)練。
其中,天翼云自研了AI框架Teleformers,對算子、通信、數(shù)據(jù)處理進行優(yōu)化,還有并行策略的自適應(yīng)調(diào)整,顯著提升了大模型訓(xùn)練的訓(xùn)練效率。
在目前業(yè)內(nèi)大參數(shù)規(guī)模開源單體稠密模型Llama3.1-405B大模型訓(xùn)練測試中,性能表現(xiàn)達(dá)到國際同等水平。
算子優(yōu)化方面,針對昇騰芯片的特性,在網(wǎng)絡(luò)結(jié)構(gòu)層面對諸多高頻算子進行了定制化改造,構(gòu)建了高性能算子集。
比如matmul算子,利用昇騰芯片的計算親和性,將算子輸入padding到特定的維度,大幅提升執(zhí)行效率,從而明顯縮短了訓(xùn)練時間。
數(shù)據(jù)處理和流水線方面,通過設(shè)置合理的數(shù)據(jù)分片策略和HPFS條帶化優(yōu)化,結(jié)合數(shù)據(jù)預(yù)取與數(shù)據(jù)下沉技術(shù),大幅提升數(shù)據(jù)流的處理效率和穩(wěn)定性;對預(yù)處理后的數(shù)據(jù)集進行了二次分片并提供就近緩存能力,減少GPU空閑時間。
自適應(yīng)并行策略方面,基于對3D并行中各類計算單元的分析,天翼云設(shè)計了多種自適應(yīng)的3D并行策略,依據(jù)模型規(guī)模和硬件資源的不同可以自動選擇合適的并行策略,充分利用計算資源和顯存資源,縮短模型訓(xùn)練中每輪的迭代時間。
天翼云國產(chǎn)化萬卡智算中心還有多項技術(shù)突破——
天翼云息壤訓(xùn)練服務(wù)平臺基于軟硬件協(xié)同設(shè)計,提供全鏈路故障監(jiān)控、基于主動感知的全鏈路故障監(jiān)控和定位、CheckPoint秒級多級高速存儲系統(tǒng)、容錯優(yōu)雅調(diào)度和模型編譯緩存等系統(tǒng),將萬卡規(guī)模故障發(fā)現(xiàn)和解決問題縮短到業(yè)內(nèi)前沿的分鐘級,大幅提升有效訓(xùn)練時間。
自動斷點續(xù)訓(xùn)系統(tǒng):
建設(shè)豐富的故障庫,基于此構(gòu)建了多維故障感知系統(tǒng),能夠快速主動感知相關(guān)故障事件和潛在的故障風(fēng)險;
通過精準(zhǔn)的故障隔離和調(diào)度手段,快速隔離處理故障節(jié)點并重新調(diào)度新節(jié)點接手任務(wù)繼續(xù)訓(xùn)練,實現(xiàn)無人干預(yù)式斷點續(xù)訓(xùn),有效減少GPU閑置時間。
高速多級CheckPoint系統(tǒng):
天翼云設(shè)計基于多級存儲的高速CheckPoint系統(tǒng),通過兩階段異步存儲,實現(xiàn)高速寫入內(nèi)存,并終異步寫入遠(yuǎn)端系統(tǒng);
針對斷點恢復(fù)場景,提供進程級故障原地快恢和遠(yuǎn)端快速恢復(fù)能力,終實現(xiàn)對CheckPoint的秒級讀寫能力,大幅降低斷點恢復(fù)時間、提升訓(xùn)練效率。
全鏈路檢測工具鏈:
天翼云開發(fā)了全鏈路故障監(jiān)控工具鏈,能夠基于主動感知實現(xiàn)全鏈路的故障監(jiān)控和定位。
該工具鏈可以主動發(fā)現(xiàn)設(shè)備故障,并降低訓(xùn)練中斷的頻次,確保訓(xùn)練過程的連續(xù)性和穩(wěn)定性。
本文鏈接:http://m.zh1234.com/news13664.html中國電信天翼云完成首個國產(chǎn)GPU萬卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先