大模型行業，根本沒有什麼「真」開源？

2024-08-01 09:57

作者｜周一笑

郵箱｜ zhouyixiao@pingwest.com

最近一段時間開源大模型市場非常熱鬧，先是蘋果開源了70億參數小模型DCLM，然后是重量級的Meta的Llama 3.1 和Mistral Large 2相繼開源，在多項基準測試中Llama 3.1超過了閉源SOTA模型。

不過開源派和閉源派之間的爭論並沒有停下來的跡象。

一邊是Meta在Llama 3.1發佈后表示：「現在，我們正在迎來一個開源引領的新時代。」另一邊是Sam Altman在《華盛頓郵報》撰文，直接把開源閉源的矛盾上升到國家和意識形態層面。

在前段時間的世界人工智能大會上，李彥宏直言「開源其實是一種智商税」，因為閉源模型明明性能強，推理成本更低，再次引發討論。

隨后，傅盛也發表了他的看法，他認為開源和閉源這兩個陣營是彼此共同競爭，共同發展。並對「開源其實是一種智商税」這一觀點進行了反駁：「開源大語言模型是免費的，他怎麼來的智商税呢，誰在收税？」，「如果今天企業用付費閉源大語言模型，那才叫'智商税'，尤其是收很高的模型授權費、API費用，一年花了數百上千萬，最后買回去當個擺設，甚至員工根本用不起來（模型）。」

這場爭論的核心涉及到技術發展的方向和模式，反映了不同利益相關者的觀點和立場，在我們談論大語言模型的開源和閉源之前，需要釐清先「開源」和「閉源」這兩個基本概念。

「開源」一詞源自軟件領域，指在軟件開發過程中公開其源代碼，允許任何人查看、修改和分發。開源軟件的開發通常遵循互惠合作和同儕生產的原則，促進了生產模塊、通信管道和交互社區的改進，典型代表包括Linux，Mozilla Firefox。

閉源軟件（專有軟件）由於商業或其他原因，不公開源代碼，只提供計算機可讀的程序（如二進制格式）。源代碼僅由開發者掌握和控制。典型代表包括Windows，安卓。

開源是一種軟件開發模式，基於開放、共享和協作，鼓勵大家共同參與軟件的開發和改進，推動技術的不斷進步和廣泛應用。

選擇閉源開發的軟件更有可能成為一個穩定、專注的產品，但是閉源軟件通常需要花錢，且如果它有任何錯誤或缺少功能，只能等待開放商來解決問題。

至於什麼是開源大模型，業界並沒有像開源軟件一樣達成一個明確的共識。

大語言模型的開源和軟件開源在理念上是相似的，都是基於開放、共享和協作，鼓勵社區共同參與開發和改進，推動技術進步並提高透明性。

然而，在實現和需求上有顯著區別。

軟件開源主要針對應用程序和工具，開源的資源需求較低，而大語言模型的開源則涉及大量計算資源和高質量的數據，並且可能有更多使用限制。因此，雖然兩者的開源都旨在促進創新和技術傳播，但大語言模型開源面臨更多的複雜性，社區貢獻形式也有所不同。

李彥宏也強調了兩者的區別，模型開源不等於代碼開源：「模型開源只能拿到一堆參數，還要再做SFT（監督微調）、安全對齊，即使是拿到對應源代碼，也不知道是用了多少比例、什麼比例的數據去訓練這些參數，無法做到眾人拾柴火焰高，拿到這些東西，並不能讓你站在巨人的肩膀上迭代開發。」

大語言模型的全流程開源包括將模型開發的整個過程，從數據收集、模型設計、訓練到部署，所有環節都公開透明。這種做法不僅包括數據集的公開和模型架構的開放，還涵蓋了訓練過程的代碼共享和預訓練模型權重的發佈。

過去一年，大語言模型的數量大幅增加，許多都聲稱是開源的，但它們真的有多開放呢？

荷蘭拉德堡德大學的人工智能研究學者Andreas Liesenfeld和計算語言學家Mark Dingemanse也發現，雖然「開源」一詞被廣泛使用，但許多模型最多隻是「開放權重」，關於系統構建的其他大多數方面都隱藏了起來。

比如Meta和微軟等科技雖將其大語言模型標榜為「開源」，卻並未公開底層技術相關的重要信息。而讓他們意外的是，資源更少的AI企業和機構的表現更令人稱讚。

該研究團隊分析了一系列熱門「開源」大語言模型項目，從代碼、數據、權重、API到文檔等多個方面評估其實際開放程度。研究還將OpenAI的ChatGPT作為閉源的參考點，凸顯了「開源」項目的真實狀況。

✔為開放，~為部分開放，X為封閉

結果顯示，項目間差異顯著，根據這個排行榜，Allen Institute for AI的OLMo是最開放的開源模型，其次是BigScience的BloomZ，兩者都是由非營利組織開發。

論文稱，Meta的Llama以及 Google DeepMind的Gemma 雖然自稱開源或開放，但實際上只是開放權重，外部研究人員可以訪問和使用預訓練模型，但無法檢查或定製模型，也不知道模型如何針對特定任務進行微調。

最近LLaMA 3和Mistral Large 2的發佈引起了廣泛關注。在模型在開放性方面，LLaMA 3公開了模型權重，用户可以訪問和使用這些預訓練和指令微調后的模型權重，此外Meta還提供了一些基礎代碼，用於模型的預訓練和指令微調，但並未提供完整的訓練代碼，LLaMA 3 的訓練數據也並未公開。不過這次LMeta帶來了關於LLaMA 3.1 405B 的一份93頁的技術報告。

Mistral Large 2的情況類似，在模型權重和 API 方面保持了較高的開放度，但在完整代碼和訓練數據方面的開放程度較低，採用了一種平衡商業利益和開放性的策略，允許研究使用但對商業使用有所限制。

谷歌表示，該公司在描述模型時「在語言上非常精確」，他們將Gemma稱為開放而非開源。「現有的開源概念並不總能直接應用於 AI 系統，」

這項研究的一個重要背景是歐盟的人工智能法案，該法案生效時，對歸類為開放的模型實施較寬松的監管，因此關於開源的定義可能會變得更加重要。

研究人員表示，創新的唯一途徑是通過調整模型，為此需要足夠的信息來構建自己的版本。不僅如此，模型還必須接受審查，例如，一個模型在大量測試樣本上進行了訓練，那麼它通過特定測試可能並不算一項成就。

他們也對如此多的開源替代方案的出現感到令人欣喜，ChatGPT非常受歡迎，以至於很容易讓人們忘記對其訓練數據或其他幕后手段一無所知。對於那些希望更好地瞭解模型或基於構建應用的人來説，這是一個隱患，而開源替代方案使得關鍵的基礎研究成為可能。

硅星人也對國內部分開源大語言模型的開源情況進行了統計：

從表中我們可以看到，和海外的情況類似，開源較為徹底的模型基本是由研究機構主導，這主要是因為研究機構的目標是推動科研進步和行業發展，更傾向於開放其研究成果。

而商業公司則利用其資源優勢，開發出更為強大的模型，並通過適當的開源策略在競爭中獲得優勢。

從GPT-3到BERT以來，開源為大模型生態系統帶來了重要的推動力。

通過公開其架構和訓練方法，研究人員和開發者可以在這些基礎上進行進一步的探索和改進，催生出更多前沿的技術和應用。

開源大模型的出現顯著降低了開發的門檻，開發者和中小企業能夠利用這些先進的AI技術，而不必從零開始構建模型，從而節省了大量的時間和資源。這使得更多創新項目和產品得以快速落地，推動了整個行業的發展。開發者們在開源平臺上積極分享優化方法和應用案例，也促進了技術成熟和應用。

對教育和科研而言，開源大語言模型提供了寶貴資源。學生和新手開發者通過研究和使用這些模型，能快速掌握先進AI技術，縮短學習曲線，為行業輸送新鮮血液。

然而，大語言模型的開放性並非簡單的二元特性。基於Transformer的系統架構及其訓練過程極為複雜，難以簡單歸類為開放或封閉。開源大模型並非一個簡單的標籤，更像一個光譜，從完全開源到部分開源，程度各異。

大語言模型的開源是一項複雜而細緻的工作，並非所有模型都必須開源。

更不應以「道德綁架」的方式要求全面開源，因為這涉及大量技術、資源和安全考量，需要平衡開放與安全、創新與責任。正如科技領域的其他方面一樣，多元化的貢獻方式才能構建一個更豐富的技術生態系統。

開源和閉源模型的關係或許可以類比於軟件行業中開源和閉源軟件的共存。

開源模型促進了技術的廣泛傳播和創新，為研究者和企業提供了更多可能性，而閉源模型則推動着整個行業的標準的提升。兩者的良性競爭激發了持續改進的動力，也為用户提供了多樣化的選擇。

正如開源和專有軟件共同塑造了今天的軟件生態，開源和閉源大模型之間也並非二元對立，兩者的並存發展是推動AI技術不斷進步、滿足不同應用場景需求的重要動力。最終，用户和市場會作出適合自己的選擇。

大模型行業，根本沒有什麼「真」開源？

推薦文章

美股機會日報 | 止跌企穩！納指期貨盤前漲約0.5%，有分析稱美股連遭重挫后或回升；亞馬遜盤前大跌超8%

一周財經日曆 | 事關降息！美國1月非農、CPI數據下周公佈；恆指季檢結果下周五揭曉

華爾街大多頭漫談黃金「黑天鵝」風險：馬斯克實現太空採金，化身全球央行行長

避險情緒席捲市場 華爾街青睞的熱門交易紛紛崩跌

華盛早報 | 無一倖免！美股、金銀、加密貨幣與原油集體崩盤；南向資金爆買250億港元！創約半年來新高；千問APP今日啟動30億免單

亞馬遜股價盤后大跌近10%，鉅額資本支出引發擔憂

比特幣暴跌帶來124億美元鉅虧 Saylor的金融實驗岌岌可危

2月6日外盤頭條：比特幣暴跌 亞馬遜預計今年資本支出將達2000億美元 交易員料美聯儲將比預期更早降息

避險情緒席捲市場華爾街青睞的熱門交易紛紛崩跌

2月6日外盤頭條：比特幣暴跌亞馬遜預計今年資本支出將達2000億美元交易員料美聯儲將比預期更早降息