Llama-3公佈基礎訓練設施，使用49000個H100

2024-03-13 12:22

3月13日，社交、科技巨頭Meta在官網公佈了兩個全新的24K H100 GPU集羣（49,152個），專門用於訓練大模型Llama-3。

此外，Llama-3使用了RoCEv2網絡，基於Tectonic/Hammerspace的NFS/FUSE網絡存儲，繼續使用了PyTorch機器學習庫。

從訓練進度來看，估計Llama-3最快將於4月末或5月中旬上線。受Sora影響，很可能是一個多模態模型，並且會繼續開源。

Meta表示，預計到2024年底，將擁有600,000個H100的算力。

Meta首席科學家確認

Meta作為全球市值最高的科技公司之一，對AI的投入一直非常大，致力於構建造福全人類的AGI（通用人工智能）。

早在2022年1月24日，Meta首次公佈了AI 研究超級集羣(RSC)的詳細信息，擁有16,000個英偉達A100 GPU。

該集羣在開發全球最受歡迎的類ChatGPT模型Llama和Llama 2，以及計算機視覺、NLP 和語音識別、圖像生成等發揮了重要作用。

本次新增的GPU集羣建立在RSC成功經驗之上，每個集羣包含24,576 個H100 GPU，能夠支持比以往更復雜、參數更高的大模型訓練。

Meta每天要處理數百萬億次AI模型的請求，所以，使用一個高效、靈活的網絡才能保證數據中心安全、穩定的運行。

一個集羣是基於Arista7800、Wedge400和Minipack2 OCP 機架交換機，構建了一個具有融合以太網遠程直接內存訪問(RoCE) 網絡結構的解決方案；

另外一個使用了NVIDIA Quantum2 InfiniBand結構，這兩種方案都能互連 400 Gbps端點。

在兩個不同集羣幫助下，Meta可以評估不同類型的互聯對大規模訓練的適用性和可擴展性，為以后設計和構建更大、更大規模的集羣提供更多經驗。

此外，Meta已經成功地將 RoCE 和InfiniBand 集羣用於大型生成式AI工作負載（包括正在RoCE 集羣上對 Llama 3 進行的訓練），並且沒有出現任何網絡瓶頸。

新增的兩個集羣全部使用Grand Teton，這是Meta內部設計的開放性 GPU 硬件平臺，於2022年10月18日首次發佈。

Grand Teton 建立在多代人工智能系統的基礎上，將電源、控制、計算和結構接口集成到一個機箱中，以獲得更好的整體性能、信號完整性和散熱性能。具有簡化的設計、靈活性，可快速部署到數據中心機羣中，並易於維護和擴展等優點。

隨着大模型的功能趨於多模特，需要消耗大量的圖像、視頻、音頻和文本數據，所以，對數據存儲的需求迅速增長。

Meta新集羣的存儲部署通過自創的用户空間 Linux 文件系統API來滿足人工智能集羣的數據和檢查點需求，該應用程序接口由 Meta 針對閃存媒體進行了優化的 Tectonic 分佈式存儲解決方案版本提供支持。

該解決方案使數千個 GPU 能夠以同步方式保存和加載檢查點（這對任何存儲解決方案來説都是一個挑戰），同時還提供了數據加載所需的靈活、高吞吐量的外字節級存儲。

Meta還與 Hammerspace 合作，共同開發、部署並行網絡文件系統 (NFS)，以滿足開發人員對超級AI集羣的存儲要求。

此外，Hammerspace 還能讓工程師使用數千個 GPU 對作業進行交互式調試，因為環境中的所有節點都能立即訪問代碼更改。

將Meta的 Tectonic 分佈式存儲解決方案和 Hammerspace 結合在一起，可以在不影響規模的情況下實現快速功能迭代。

文章來源：AIGC開放社區，原文標題：《Llama-3公佈基礎訓練設施，使用49,000個H100》風險提示及免責條款市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。