繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Llama-3公佈基礎訓練設施,使用49000個H100

2024-03-13 12:22

3月13日,社交、科技巨頭Meta在官網公佈了兩個全新的24K H100 GPU集羣(49,152個),專門用於訓練大模型Llama-3。

此外,Llama-3使用了RoCEv2網絡,基於Tectonic/Hammerspace的NFS/FUSE網絡存儲,繼續使用了PyTorch機器學習庫。

從訓練進度來看,估計Llama-3最快將於4月末或5月中旬上線。受Sora影響,很可能是一個多模態模型,並且會繼續開源。

Meta表示,預計到2024年底,將擁有600,000個H100的算力。

Meta首席科學家確認

Meta作為全球市值最高的科技公司之一,對AI的投入一直非常大,致力於構建造福全人類的AGI(通用人工智能)。

早在2022年1月24日,Meta首次公佈了AI 研究超級集羣(RSC)的詳細信息,擁有16,000個英偉達A100 GPU。

該集羣在開發全球最受歡迎的類ChatGPT模型Llama和Llama 2,以及計算機視覺、NLP 和語音識別、圖像生成等發揮了重要作用。

本次新增的GPU集羣建立在RSC成功經驗之上,每個集羣包含24,576 個H100 GPU,能夠支持比以往更復雜、參數更高的大模型訓練。

Meta每天要處理數百萬億次AI模型的請求,所以,使用一個高效、靈活的網絡才能保證數據中心安全、穩定的運行。

一個集羣是基於Arista7800、Wedge400和Minipack2 OCP 機架交換機,構建了一個具有融合以太網遠程直接內存訪問(RoCE) 網絡結構的解決方案;

另外一個使用了NVIDIA Quantum2 InfiniBand結構,這兩種方案都能互連 400 Gbps端點。

在兩個不同集羣幫助下,Meta可以評估不同類型的互聯對大規模訓練的適用性和可擴展性,為以后設計和構建更大、更大規模的集羣提供更多經驗。

此外,Meta已經成功地將 RoCE 和InfiniBand 集羣用於大型生成式AI工作負載(包括正在RoCE 集羣上對 Llama 3 進行的訓練),並且沒有出現任何網絡瓶頸。

新增的兩個集羣全部使用Grand Teton,這是Meta內部設計的開放性 GPU 硬件平臺,於2022年10月18日首次發佈。

Grand Teton 建立在多代人工智能系統的基礎上,將電源、控制、計算和結構接口集成到一個機箱中,以獲得更好的整體性能、信號完整性和散熱性能。具有簡化的設計、靈活性,可快速部署到數據中心機羣中,並易於維護和擴展等優點。

隨着大模型的功能趨於多模特,需要消耗大量的圖像、視頻、音頻和文本數據,所以,對數據存儲的需求迅速增長。

Meta新集羣的存儲部署通過自創的用户空間 Linux 文件系統API來滿足人工智能集羣的數據和檢查點需求,該應用程序接口由 Meta 針對閃存媒體進行了優化的 Tectonic 分佈式存儲解決方案版本提供支持。

該解決方案使數千個 GPU 能夠以同步方式保存和加載檢查點(這對任何存儲解決方案來説都是一個挑戰),同時還提供了數據加載所需的靈活、高吞吐量的外字節級存儲。

Meta還與 Hammerspace 合作,共同開發、部署並行網絡文件系統 (NFS),以滿足開發人員對超級AI集羣的存儲要求。

此外,Hammerspace 還能讓工程師使用數千個 GPU 對作業進行交互式調試,因為環境中的所有節點都能立即訪問代碼更改。

將Meta的 Tectonic 分佈式存儲解決方案和 Hammerspace 結合在一起,可以在不影響規模的情況下實現快速功能迭代。

文章來源:AIGC開放社區,原文標題:《Llama-3公佈基礎訓練設施,使用49,000個H100》風險提示及免責條款市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。