繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Meta公佈Llama 3訓練集羣細節!儲備60萬塊H100迎接AGI

2024-03-16 19:33

每年3月份,照例各家大廠又要開始秀自己最新的產品和研究了。

OpenAI剛剛發佈了震驚世人的Sora,最新的ChatGPT版本似乎也是箭在弦上。

谷歌更是舉全公司之力,從去年底就開始放出了包括Gemini Ultra,Gemini 1.5,Gemma在內,各分支賽道上的驚艷成果。

可是作為開源AI的扛把子,Meta在去年發佈了Llama 2和后續的模型后,就一直缺少有影響力的產品問世。

而對於開源社區來説,OpenAI雖好,可Meta纔是大家真的衣食父母。大家都在翹首以待Llama 3的發佈。

在Llama 3公開之前,不甘寂寞的Meta還是想到辦法在行業內刷了一波存在感——秀肌肉。

Meta AI剛剛發表了一份技術博客,向公眾展示了自己擁有的算力資源,以及Meta佈局AI Infra的具體細節和路線圖。

根據Meta的規劃,到2024年底它將擁有35萬個英偉達H100GPU,而未來算力儲備將達到誇張的60萬個H100。

而光有大量的GPU還遠遠不夠,如如何有效地把硬件資源組織成高效的算力集羣纔是關鍵。

Meta還公佈了它構建的由24576個H100GPU構成的,正在用於訓練Llama 3的集羣細節。

Pytorch創始人的給出的總結:

Meta用來訓練Llama3的Meta 24k H100 Cluster Pods 的詳細信息。

-網絡:RoCEv2/Infiniband兩個版本。

Llama3在RoCEv2 上訓練

-存儲: 基於Tectonic/Hammerspace的NFS/FUSE

-Stock PyTorch:no real modifications that aren't upstreamed

-帶有一些補丁的NCCL:補丁和交換機優化使集羣實現了相當高的網絡帶寬。

-各種調試和集羣監控工具,如 NCCL 去同步調試、內存行重映射檢測等。

正在訓練大模型的公司趕快來抄Meta的作業了!

Meta的H100集羣細節

在Meta2022年公佈的研究超級集羣(RSC)基礎之上,這兩個100集羣進一步在高性能網絡結構的效率、一些關鍵存儲決策上進行了優化。

從而使得這兩個集羣都能支持比RSC所能支持的模型更大,更復雜的模型,從而為未來AI研究提供更加強悍的動力。

Meta每天處理數百萬億個人工智能模型的任務和操作。

大規模提供這些服務需要高度先進且靈活的基礎設施。定製設計Meta自己的大部分硬件、軟件和網絡結構,使他們能夠優化人工智能研究人員的端到端體驗,同時確保數據中心高效運行。

考慮到Meta的這個具體需求,它構建了這一個集羣。

該集羣採用基於Arista 7800的遠程直接內存訪問 (RDMA) 融合以太網 (RoCE) 網絡結構解決方案,配備Wedge400和Minipack2 OCP機架式交換機。

另一個集羣採用英偉達Quantum2 InfiniBand Fabric。這兩種解決方案都能實現400 Gbps端點互聯。

有了這兩個解決方案,Meta就能夠評估這些不同類型的互連是否適合大規模培訓以及是否具有可擴展性,從而為Meta今后如何設計和構建更大、更大規模的集羣提供更多經驗。

通過對網絡、軟件和模型架構的精心共同設計,Meta已經成功地將RoCE和 InfiniBand集羣用於大型GenAI工作負載(包括Meta正在RoCE集羣上對Llama 3進行的訓練),並且沒有出現任何網絡瓶頸。

這兩個集羣均使用Grand Teton構建,Grand Teton是Meta內部設計的開放式 GPU 硬件平臺,Meta已將其貢獻給開放計算項目 (OCP)。

Grand Teton建立在多代AI系統的基礎上,將電源、控制、計算和結構接口集成到一個機箱中,以獲得更好的整體性能、信號完整性和散熱性能。

它採用簡化設計,具有快速可擴展性和靈活性,可快速部署到數據中心機羣中,並易於維護和擴展。

結合其他內部創新技術,如Meta的開放式機架電源和機架架構,Grand Teton使Meta能夠針對自己當前和未來的應用構建新的集羣。

從2015 年的Big Sur平臺開始,Meta一直在公開設計自己的GPU硬件平臺。

存儲在人工智能訓練中扮演着重要角色,但卻是最不受關注的方面。

隨着時間的推移,GenAI訓練工作變得越來越多模態化,需要消耗大量的圖像、視頻和文本數據,因此對數據存儲的需求迅速增長。

將所有數據存儲納入一個高性能、高能效的空間的需求,使得問題變得更加有趣。

Meta的存儲部署通過自創的用户空間Linux文件系統(FUSE)應用程序接口(API)來滿足人工智能集羣的數據和檢查點需求,該應用程序接口由 Meta 針對閃存媒體進行了優化的 「Tectonic 」分佈式存儲解決方案版本提供支持。

這個解決方案使數千個GPU能夠以同步方式保存和加載檢查點(這對任何存儲解決方案來説都是一個挑戰),同時還提供了數據加載所需的靈活、高吞吐量的外字節級存儲。

Meta還與Hammerspace合作,共同開發並部署並行網絡文件系統 (NFS),以滿足該人工智能集羣對開發人員體驗的要求。

除其他優勢外,Hammerspace還能讓工程師使用數千個GPU對作業進行交互式調試,因為環境中的所有節點都能立即訪問代碼更改。

將Meta的Tectonic分佈式存儲解決方案和Hammerspace結合在一起,可以在不影響規模的情況下實現快速迭代。

在Meta的GenAI集羣中,Tectonic和Hammerspace支持的存儲部署都基於YV3 Sierra Point服務器平臺,並升級了Meta目前在市場上可以採購到的最新高容量E1.S SSD。

除了更高的固態硬盤容量外,每個機架的服務器也進行了定製,以實現每台服務器吞吐能力、機架數量減少和相關能效之間的適當平衡。

利用OCP服務器作為像樂高積木一樣的基本模塊,Meta的存儲層能夠靈活擴展,以滿足該集羣以及未來更大的人工智能集羣的未來需求,同時具有容錯能力,可滿足日常基礎設施維護操作的要求。

Meta構建大規模人工智能集羣的原則之一是同時最大限度地提高性能和易用性,而不會顧此失彼。

這是創建一流人工智能模型的重要原則。

隨着Meta不斷挑戰人工智能系統的極限,測試Meta擴展設計能力的最佳方法就是簡單地構建系統、優化系統並進行實際測試(雖然模擬器可以提供幫助,但也只能到此為止)。

在這次設計過程中,Meta比較了小型集羣和大型集羣的性能,從而找出瓶頸所在。

下圖顯示了AllGather的集體性能(以 0-100 為單位的歸一化帶寬),即大量GPU在信息大小為屋頂線性能預期的情況下相互通信時的性能。

從圖中可以看到,小型集羣性能(整體通信帶寬和利用率)開箱即達到90%+,但未經優化的大型集羣性能利用率非常低,從10%到90%不等。在優化整個系統(軟件、網絡等)后,看到大型集羣性能恢復到理想的90%+範圍。

與優化后的小型集羣性能相比,Meta的大型集羣開箱即用性能最初較差且不一致。

爲了解決這個問題,Meta對內部作業調度程序的調度方式做了一些改變,使其具有網絡拓撲意識——這帶來了延迟優勢,並最大限度地減少了流向網絡上層的流量。

Meta還結合英偉達集體通信庫(NCCL)的變化優化了網絡路由策略,以實現最佳網絡利用率。

這有助於推動Meta的大型集羣實現與小型集羣一樣出色的預期性能。

除了針對內部基礎設施的軟件變更外,Meta還與編寫培訓框架和模型的團隊密切合作,以適應不斷發展的基礎設施。

例如,英偉達H100 GPU為利用8位浮點(FP8)等新數據類型進行訓練提供了可能。

充分利用更大的集羣需要投資更多的並行化技術,而新的存儲解決方案則為高度優化數千個等級的檢查點提供了機會,使其能夠在數百毫秒內運行。

Meta還認識到,可調試性是大規模訓練的主要挑戰之一。

在大規模訓練中,識別導致整個訓練工作停滯的問題GPU變得非常困難。

Meta正在開發desync調試或分佈式集體飛行記錄器等工具,以揭示分佈式訓練的細節,幫助以更快、更簡單的方式發現問題。

最后,Meta還在繼續改進PyTorch(為Meta的人工智能工作負載提供動力的基礎人工智能框架),使其能夠滿足數萬甚至數十萬GPU的訓練需求。

Meta已經發現了流程組初始化的多個瓶頸,並將啟動時間從有時的幾個小時縮短到幾分鍾。

致力於開放式人工智能創新

Meta始終致力於人工智能軟件和硬件的開放式創新。

他們相信,開源硬件和軟件將始終是幫助行業大規模解決問題的寶貴工具。

如今,Meta作為OCP的創始成員,繼續支持開放式硬件創新,向OCP社區提供Grand Teton和Open Rack等設計。

Meta還是PyTorch的最大和主要貢獻者,PyTorch是一個人工智能軟件框架,為整個行業提供了強大的動力。

Meta還繼續致力於人工智能研究社區的開放式創新。

Meta已經啟動了開放創新人工智能研究社區,這是一項面向學術研究人員的合作計劃,旨在加深Meta對如何負責任地開發和共享人工智能技術的理解——尤其關注LLM。

Meta還發起了人工智能聯盟(AI Alliance),這是一個由人工智能行業領先組織組成的團體,致力於在一個開放的社區內加速人工智能領域負責任的創新。

Meta的人工智能工作建立在開放科學和交叉合作的理念之上。開放的生態系統為人工智能開發帶來了透明度、監督和信任,並帶來了每個人都能從中受益的創新,這些創新都是以安全和責任為首要考慮的。

Meta AI基礎設施的未來

這兩個人工智能訓練集羣設計是Meta未來人工智能更大路線圖的一部分。

到2024年底,Meta的目標是繼續擴大Meta的基礎設施建設,其中將包括35萬個H100,未來會擴充到60萬個H100 GPU的等效算力。

展望未來,Meta認識到,昨天或今天的工作可能無法滿足明天的需求。

因此,Meta會不斷評估和改進基礎設施的各個方面,從物理層、虛擬層到軟件層,以及未來出現的新維度。

Meta的目標是創建靈活可靠的系統,以支持快速發展的新模式和研究。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。