老黃不止賣鏟子了：英偉達配合Llama3.1推出定製模型、推理服務

2024-07-27 11:58

夢晨發自凹非寺

量子位 | 公眾號 QbitAI

芯片巨頭英偉達，在AI時代一直被類比為在淘金熱中「賣鏟子」的背后贏家。

現在他不裝了，也要親自下場「挖金礦」：

配合最強開源大模型Llama3.1，推出NVIDIA AI Foundry和NVIDIA NIM推理微服務兩大新業務。

Foundry在芯片行業指「鑄造廠」，比如臺積電製造其他公司設計的芯片。

NVIDIA AI Foundry，代表英偉達可以定製化製造大模型了：

NVIDIA AI Foundry 提供從數據策管、合成數據生成、微調、檢索、防護到評估的全方位生成式AI模型服務。

NVIDIA NIM在年初的GTC大會上首次亮相，使用幾行代碼就可以在雲、數據中心、工作站和PC上部署AI模型。

現在則又新加一個標籤：將Llama 3.1模型部署到生產中的最快途徑，吞吐量最多可比不使用NIM運行推理時高出2.5倍。

為什麼在這個時間點出手？

黃仁勛表示：「Meta的Llama 3.1開源模型標誌着全球企業採用生成式 AI 的關鍵時刻已經到來」。

企業可以將Llama 3.1 NIM 微服務與與全新NVIDIA NeMo Retriever NIM微服務組合使用，為AI copilot、助手和數字人虛擬形象搭建先進的檢索工作流。

NVIDIA和Meta還一起為Llama 3.1提供了一種提煉方法，供開發者為生成式AI應用創建更小的自定義Llama 3.1模型。這使企業能夠在更多加速基礎設施（如 AI 工作站和筆記本電腦）上運行由Llama驅動的AI應用。

之前老黃與小扎見面，交換皮衣穿，原來是商量這些合作去了（手動狗頭）。

自定義模型+加速部署全流程服務

Llama 3.1系列模型發佈還沒幾天，手快的企業已經用在生產中了。

Aramco、AT&T和優步，成為首批使用面向Llama 3.1全新NVIDIA NIM微服務的公司。

諮詢巨頭埃森哲更進一步，藉助NVIDIA AI Foundry為自己以及諮詢客户創建自定義Llama 3.1 模型，

從自定義模型到加速部署，被英偉達打造進了同一套流程。

企業自有數據，可使用NeMo Curator開源Python庫完成快速且可擴展的數據集準備和大模型用例的管理，包括基礎模型預訓練、領域自適應預訓練（DAPT）、監督微調（SFT）和參數高效微調（PEFT）。

接下來使用NeMo Customizer簡化大模型的微調和對齊。最初支持兩種流行的參數高效微調技術：LoRA和P-Tuning。未來還將添加對完全對齊技術的支持，包括監督式微調（SFT）、從人類反饋中進行強化學習（RLHF）、直接偏好優化（DPO）以及NVIDIA SteerLM等。

Nemo Evaluator支持多種學術基準的自動評估，能夠對自定義數據集進行評估，同時也支持支持使用大模型作為評委（LLM-as-a-Judge）對模型響應進行自動評估。

NeMo Guardrails使開發者能夠構建三種邊界：

在創建了自定義模型后，企業就可以構建NVIDIA NIM推理微服務，在其首選的雲平臺，使用自己選擇的最佳機器學習運維（MLOps）和人工智能運維（AIOps）平臺在生產中運行這些模型。

合成數據趨勢爆發

像Llama 3.1 405B和和英偉達Nemotron-4 340B這樣超過千億參數的大模型，用在絕大多數場景在成本和速度上都不會令人滿意。

英偉達和Meta都意識到，用於生產合成數據，將是他們發揮作用的最大場景。

英偉達Nemotron-4 340B系列包括基礎、指導和獎勵模型，這些模型形成一個管道，用於生成用於訓練和優化LLMs的合成數據，並且使用了獨特寬松的開放模型許可證，為開發人員提供了一種免費、可擴展的方式來生成合成數據

Llama 3.1更新的開源協議這次也特別聲明：允許使用Llama生產的數據去改進其他模型，只不過用了之后模型名稱開頭必須加上Llama字樣。

參考鏈接：

[1]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

[2]https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/

（聲明：本文僅代表作者觀點，不代表新浪網立場。）