大模型像是人工智能爆發(fā)時(shí)代的一個(gè)業(yè)務(wù)怪獸,未來(lái)十年,深度學(xué)習(xí)的計(jì)算能力將再提高100萬(wàn)倍,迅速吞噬著現(xiàn)代計(jì)算機(jī)的三個(gè)主要要素:計(jì)算,內(nèi)存和網(wǎng)絡(luò)。過(guò)去8年,單卡硬件的算力增長(zhǎng)40倍,節(jié)點(diǎn)內(nèi)總線(xiàn)帶寬只增長(zhǎng)了9倍,跨節(jié)點(diǎn)網(wǎng)絡(luò)帶寬只增長(zhǎng)4倍,集群的通信需求已突破現(xiàn)代計(jì)算機(jī)架構(gòu)的承載極限。
算力需求飆升:隨著AGI應(yīng)用的快速成熟,以及模型智能水平的提升,應(yīng)用場(chǎng)景將會(huì)全面鋪開(kāi)(代碼&辦公&具身智能&自動(dòng)駕駛)。未來(lái)模型預(yù)測(cè)精度會(huì)逐步提升,同時(shí)模型參數(shù)量持續(xù)增加,約100-700萬(wàn)億的參數(shù)量,接近人腦神經(jīng)元數(shù)量規(guī)模。從而算力需求會(huì)接近百萬(wàn)倍提升,從10EFLOPS到10YFLOPS量級(jí),算力需求呈現(xiàn)指數(shù)倍級(jí)的飆升。
算力效率降低:頭部的大模型公司為了更高的訓(xùn)練效率,采用分布式訓(xùn)練技術(shù)(EP/TP/DP)。在這個(gè)過(guò)程中“數(shù)據(jù)同步”和“梯度同步”是兩種關(guān)鍵操作,它們直接影響訓(xùn)練效率。這意味著分布式訓(xùn)練的核心矛盾在于,并行計(jì)算需要節(jié)點(diǎn)間協(xié)作,但協(xié)作過(guò)程會(huì)產(chǎn)生通信瓶頸,從而導(dǎo)致算力利用率從85%降至52%,算力浪費(fèi)達(dá)到39%。
大模型訓(xùn)練高算力依賴(lài)與成本攀升的問(wèn)題,已成為AI落地的瓶頸。很多企業(yè)購(gòu)買(mǎi)高端的算力,在多卡并行訓(xùn)練的場(chǎng)景下,受限于集群調(diào)度,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等能力,往往只能獲得30%的集群算力利用率。因此,以小算力獲取大能力,從而提升單卡吞吐效率和AI集群算力、降低算力使用成本,是企業(yè)的核心訴求。也驅(qū)動(dòng)計(jì)算范式從單算力向混合算力協(xié)同發(fā)展,從單機(jī)向集群靈活部署發(fā)展,從傳統(tǒng)應(yīng)用松散分布向多樣應(yīng)用緊密融合發(fā)展,對(duì)下一代數(shù)據(jù)中心架構(gòu)提出更高要求。
華為云認(rèn)為,下一代云計(jì)算體系架構(gòu)將是矩陣式。那到底什么是新一代的矩陣算力架構(gòu)? “一切皆對(duì)等、一切可池化、一切可組合”是華為云CloudMatrix的三大核心。本質(zhì)是讓算力、內(nèi)存、網(wǎng)絡(luò)像水一樣,可按需組成不同類(lèi)型的資源池,并自由流動(dòng)在集群內(nèi)。從而打破當(dāng)代系統(tǒng)計(jì)算,網(wǎng)絡(luò)和內(nèi)存等資源固定配比,突破傳統(tǒng)的架構(gòu)限制,實(shí)現(xiàn)彈性、高效、低成本的資源能力。
無(wú)法量化的系統(tǒng),無(wú)從改進(jìn)。華為云CloudMatrix矩陣算力架構(gòu),以構(gòu)建訓(xùn)練業(yè)務(wù)更優(yōu)時(shí)間為目標(biāo),定義可衡量訓(xùn)練能力的范式?;谝粋€(gè)多維公式,綜合求解“有效計(jì)算時(shí)間、通信延遲、任務(wù)調(diào)度效率、系統(tǒng)可用性”四大核心變量,實(shí)現(xiàn)精準(zhǔn)平衡。
黑科技一:分布式QingTian,實(shí)現(xiàn)CloudMatrix中的“一切可池化”
分布式QingTian是華為云超節(jié)點(diǎn)的架構(gòu)底座,業(yè)界首個(gè)實(shí)現(xiàn)兩大資源池化技術(shù)。
網(wǎng)絡(luò)IO設(shè)備池化:通過(guò)分布式QingTian Box智能硬件,將網(wǎng)卡、存儲(chǔ)等IO設(shè)備解耦重組,徹底消除傳統(tǒng)架構(gòu)中IO與計(jì)算的綁定關(guān)系。用戶(hù)無(wú)需感知物理位置,像調(diào)用本地資源一樣使用全局IO能力,使得超節(jié)點(diǎn)間帶寬提升8倍至3.2T。
內(nèi)存資源池化:華為云創(chuàng)新的Memlink-direct技術(shù),支持64字節(jié)級(jí)精細(xì)讀寫(xiě),實(shí)現(xiàn)內(nèi)存跨主機(jī)直接共享,將訪(fǎng)存時(shí)延降至百納秒級(jí)。在超節(jié)點(diǎn)內(nèi)構(gòu)建統(tǒng)一尋址的邏輯內(nèi)存池,打破“單機(jī)內(nèi)存墻”,實(shí)現(xiàn)CPU/NPU與內(nèi)存的彈性配比。
黑科技二:MatrixCompute,實(shí)現(xiàn)CloudMatrix中的“一切可組合”
傳統(tǒng)資源如同一個(gè)個(gè)停在不同倉(cāng)庫(kù)的獨(dú)輪車(chē),每輛車(chē)只能獨(dú)自搬運(yùn)貨物(處理數(shù)據(jù)),倉(cāng)庫(kù)之間道路不通(系統(tǒng)間計(jì)算隔離,內(nèi)存隔離),一旦貨物量激增,獨(dú)輪車(chē)要么堵在倉(cāng)庫(kù)門(mén)口,要么因超載趴窩,這就是“系統(tǒng)孤島”的困境。
MatrixCompute利用分布式QingTian的底座,拆除倉(cāng)庫(kù)之間的圍墻。讓?xiě)?yīng)用需求與資源配置實(shí)時(shí)最優(yōu)匹配,資源可以隨意組合,不再擔(dān)心應(yīng)用資源激增的困境。既可以組裝超級(jí)集裝箱車(chē),也可以組裝成為超跑。采用兩大關(guān)鍵技術(shù):
超級(jí)實(shí)例(One Instance):通過(guò)內(nèi)存池化技術(shù)和MatrixLink互聯(lián)技術(shù),突破單機(jī)物理極限??梢詽M(mǎn)足百TB級(jí)內(nèi)存需求的AI訓(xùn)練/科學(xué)仿真任務(wù),萬(wàn)億數(shù)據(jù)量的實(shí)時(shí)分析任務(wù)的資源訴求。
柔性計(jì)算:通過(guò)“內(nèi)存熱拆借技術(shù)”和“微妙級(jí)熱伸縮”技術(shù),系統(tǒng)會(huì)實(shí)時(shí)監(jiān)測(cè)任務(wù)負(fù)載,動(dòng)態(tài)調(diào)整CPU/NPU/內(nèi)存配比,消除資源預(yù)估偏差導(dǎo)致的浪費(fèi)或瓶頸。使得單任務(wù)資源利用率提升40%~100%。
黑科技三:MatrixLink,實(shí)現(xiàn)CloudMatrix中的“一切皆對(duì)等”
可以想象一條只能行駛1輛車(chē)的鄉(xiāng)間小路,會(huì)讓整個(gè)資源效率運(yùn)行得十分低效。而MatrixLink如同將道路擴(kuò)建成10車(chē)道的高速公路,10輛車(chē)并行行駛,整體運(yùn)輸效率提升10倍。同時(shí),MatrixLink為服務(wù)器間的數(shù)據(jù)同步和梯度同步提供“智能導(dǎo)航系統(tǒng)”,并構(gòu)建“數(shù)
據(jù)立交橋”,保障每輛車(chē)“訓(xùn)練進(jìn)度”一致,從而保障性能提升數(shù)倍。
MatrixLink四層重構(gòu)了整個(gè)網(wǎng)絡(luò)通信模式,徹底改變統(tǒng)服務(wù)器間的以太網(wǎng)互聯(lián)的瓶頸,從而助推CloudMatrix萬(wàn)卡集群線(xiàn)性度>95%。
-
第一層重構(gòu)組網(wǎng):通過(guò)總線(xiàn)+分布式QingTian混合組網(wǎng),改變了傳統(tǒng)CLOS組網(wǎng)模式,將NPU卡間通信帶寬提升32倍。
-
第二層重構(gòu)協(xié)議:將CPU-NPU、NPU-NPU的協(xié)議都統(tǒng)一,減少了協(xié)議開(kāi)銷(xiāo),使得小包傳輸P99時(shí)延降低100倍。
-
第三層重構(gòu)通信語(yǔ)義:將傳統(tǒng)通信的消息語(yǔ)義轉(zhuǎn)變成內(nèi)存語(yǔ)義,使得通信算子性能提升10倍。
-
第四層重構(gòu)通信調(diào)度:隨機(jī)路由轉(zhuǎn)變成全局拓?fù)涓兄穆酚?,使得萬(wàn)卡通信“0”沖突,通信效率提升30%。
總之,MatrixLink基于全局拓?fù)涓兄闹悄苷{(diào)度算法,使得平均通信時(shí)延降低30%。
黑科技四:MatrixContainer,以應(yīng)用驅(qū)動(dòng)的“算-網(wǎng)-存”
在傳統(tǒng)模式中,汽車(chē)(系統(tǒng))和道路(基礎(chǔ)設(shè)施)是割裂的:車(chē)只能適應(yīng)固定的道路條件,道路也無(wú)法感知車(chē)的需求。MatrixContainer通過(guò)智能感知“資源池化、計(jì)算可組合,網(wǎng)絡(luò)智能化”所有資源,統(tǒng)一的調(diào)度以及彈性的能力實(shí)現(xiàn)了“車(chē)路協(xié)同”式的動(dòng)態(tài)優(yōu)化。
MatrixContainer可實(shí)現(xiàn)“應(yīng)用-超節(jié)點(diǎn)基礎(chǔ)設(shè)施”雙向智能協(xié)同。通過(guò)網(wǎng)絡(luò)自適應(yīng),屏蔽超節(jié)點(diǎn)復(fù)雜網(wǎng)絡(luò)拓?fù)洌瑢?shí)時(shí)分配最優(yōu)路徑;通過(guò)Hyperjob并行框架,實(shí)現(xiàn)千億模型自動(dòng)超節(jié)點(diǎn)并行,并行效率業(yè)界領(lǐng)先15%+;通過(guò)算力自動(dòng)伸縮,實(shí)現(xiàn)超節(jié)點(diǎn)內(nèi)微妙級(jí)彈性伸縮。
黑科技五:瑤光云腦,全天候的“AI檢修員”
超節(jié)點(diǎn)基礎(chǔ)設(shè)施在帶來(lái)極致算力和超高帶寬的同時(shí),架構(gòu)更復(fù)雜、鏈路更冗長(zhǎng)、定位更棘手。華為云真實(shí)的萬(wàn)卡集群的統(tǒng)計(jì)數(shù)據(jù),一個(gè)集群中有近1.5萬(wàn)個(gè)光模塊,面對(duì)如此復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),任一節(jié)點(diǎn)故障,都可能終端訓(xùn)練和推理任務(wù)。
瑤光云腦采用 “三層容錯(cuò)”智能運(yùn)維架構(gòu)。“基礎(chǔ)設(shè)施管理層”負(fù)責(zé)底層故障的實(shí)時(shí)智能偵測(cè)及修復(fù)。“系統(tǒng)層”支持?jǐn)噙B重傳機(jī)制,再進(jìn)一步屏蔽底層硬件故障。“業(yè)務(wù)層”通過(guò)熱遷移等方式對(duì)故障進(jìn)行主動(dòng)規(guī)避。從而實(shí)現(xiàn)“1min發(fā)現(xiàn),10分鐘恢復(fù)”,將故障恢復(fù)時(shí)長(zhǎng)MTTR降低50%。
縱觀整個(gè)計(jì)算資源發(fā)展的歷程,從單臺(tái)服務(wù)器的“單打獨(dú)斗”到分布式集群的“千軍萬(wàn)馬”,從數(shù)據(jù)孤島的“信息壁壘”到資源共享的"算網(wǎng)協(xié)同",CloudMatrix架構(gòu)重新定義IT系統(tǒng)的性能邊界,讓計(jì)算資源、容器技術(shù)和網(wǎng)絡(luò)通信像一支訓(xùn)練有素的車(chē)隊(duì),在數(shù)字化的“高速公路”上跑出效率的極限,從而實(shí)現(xiàn)業(yè)界單卡推理吞吐量(Tokens 2300/卡/秒),集群規(guī)模(單集群10萬(wàn)PFLOPS,線(xiàn)性度>95%,支持萬(wàn)億參數(shù)模型),以及資源使用,靈活配比。讓企業(yè)突破業(yè)務(wù)瓶頸、駛向智能時(shí)代!
注:本文素材轉(zhuǎn)自華為云,版權(quán)歸作者所有