螞蟻集團NextEvo全面開源AI Infra技術 可實現大模型訓練“自動駕駛”
-
收藏
0
近日,螞蟻集團AI創新研發部門NextEvo全面開源AI Infra技術,可幫助大模型千卡訓練有效時間占比超過95%,能實現訓練時“自動駕駛”,這推動了AI研發效率。

(圖:螞蟻集團的自動化分布式深度學習系統DLRover現已全面開源)
該技術框架名為DLRover,目標在于大規模分布式訓練的智能化。目前很多企業的訓練作業都是跑在混合部署的集群中,運行環境復雜多變,不管多么“崎嶇的地形”,DLRover都可以“輕松行駛”。
2023 年大模型技術的發展,帶來了工程實踐的爆發,如何管理數據,提高訓練和推理效率,最大化利用現有算力,成了關鍵一環。
完成一個千億參數級別的大模型,如GPT-3,用一張卡訓練一次要耗時32年,那么訓練時的算力利用尤為重要。方法之一是把能用的算力用得更好,比如進一步壓榨已購買GPU的性能;二是把以前利用不了的算力用起來,比如CPU、內存等,這就需要通過異構計算平臺來解決。
最新集成進DLRover的是Flash Checkpoint(FCP)方案。模型訓練時,一般要打Checkpoint(檢查點),以便中斷時能恢復到最近狀態,目前常規的做法,存在著耗時長、高頻打點易降低訓練可用時間、低頻打點恢復時丟失過多等缺點。新方案FCP應用在千卡千億參數模型訓練后,Checkpoint 導致的訓練浪費時間降低約5倍,其中持久化時間降低約70倍,有效訓練時間從90%提升至95%。
同時集成進去的,還有三項新的優化器(Optimizer)技術。優化器作為機器學習的核心組件,用于更新神經網絡參數以最小化損失函數。其中,螞蟻的AGD(Auto-switchable optimizer with Gradient Difference of adjacent steps)優化器,在大模型預訓練任務中,相比傳統的AdamW技術加速 1.5 倍,AGD已在螞蟻內部多個場景使用并取得顯著效果,相關論文已被 NeurIPS '23收錄。

(圖:在大模型預訓練任務中,AGD相比AdamW可以加速1.5 倍)
作為自動化分布式深度學習系統,DLRover的“自動駕駛”功能模塊還包括:Atorch,一種PyTorch分布式訓練擴展庫,在千億參數模型千卡級別規模下,訓練的算力利用率可達60%,幫助開發者進一步壓榨硬件算力。
DLRover以 “ML for System” 的理念來提升分布式訓練的智能度,旨在通過一個系統,讓開發者完全擺脫資源配置的束縛,專注于模型訓練本身。在沒有任何資源配置輸入的情況下,DLRover 仍然可以為每個訓練作業提供最佳資源配置。
據了解,螞蟻集團在人工智能領域持續進行技術投入,最近,螞蟻集團在內部成立了AI創新研發部門NextEvo,承擔了螞蟻AI的所有核心技術研發,包含百靈大模型的所有研發工作,涉及AI算法、AI工程、NLP、AIGC等核心技術,并在布局多模態大模型、數字人等領域的技術研發和產品創新。
同時,螞蟻集團還加速開源節奏,填補了國內相關技術空白,推動人工智能行業快速發展。
DLRover開源地址:https://github.com/intelligent-machine-learning/dlrover
免責聲明:本網站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議。】
猜你喜歡
螞蟻集團發布2024年消費者權益保護年報:金融普惠教育系列行動覆蓋1.2億人次
2月13日,螞蟻集團在官網發布《2024年消費者權益保護年報》。
派財經
共982篇文章
聚焦數字經濟融媒體平臺。