繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

大模型out了,小模型(SLM)爆火,撕開99%企業市場?

2024-08-07 16:36

對於獵豹移動CEO傅盛來説,他今年最呼籲的一件事情,正在成為潮流——小模型逐漸成熟,成為企業落地商業化主力軍,這令他十分開心。

可能很多人會困惑,大模型(LLM)正火的當下,什麼是小模型(SLM)?目前,市場通常將參數規模遠少於GPT-4或Llama-13B的千億大語言模型,一般參數只有1.5B、3B、7B的模型稱為小大模型。

要説小模型現在有多火,僅僅7月下半月,4家科技公司紛紛推出自己的小模型。

如果將時間線再往前推到今年上半年,可以發現小模型市場早已經開始「神仙打架「,比如微軟4月發佈了Phi-3、谷歌2月發佈了Gemma-7B等。

半年6款知名的小模型發佈,行業掛起了小模型的旋風。

而此前國內小模型的忠實擁躉,可能只有獵豹移動和麪壁智能。不同於其他大廠有大小系列模型覆蓋,2023年獵豹直接發佈了中小模型Orion-14B,應用於企業私有化模型落地。

儘管小模型市場競爭不激烈,但前趕集網技術總監、小晨科技創始人 蒯義剛告訴鯨哥:企業部署私有大模型,服務的海外客户最常見的模型是GPT-3.5 turbo,國內的百度文心多一些。

現在情況大變,無論GPT3.5還是GPT-4,已經成企業市場的「舊愛」了,這些參數小能力大的小模型憑藉超高性價比,一時成為市場的新寵。2024年會成為SLM元年嗎?

參數不如大模型,小模型憑啥火了?

在Scaling Law(尺度定律)的信仰下,一直向着萬億大模型進軍的科技巨頭們,紛紛轉向了小模型賽道,在市場看來可能有3大原因:

第一大原因就是大模型實在太貴了。

對於開發者而言,訓練大模型和燒錢無異。 蒯義剛就説道:「好的大模型也十分貴,GPT-4的使用成本是GPT-3.5的10倍。 」

最先進的大模型,這麼貴的原因,首當其衝的就是硬件訓練成本,GPU、TPU和CPU集羣都是基本軍備。前有OpenAI用了25,000塊A100芯片訓練GPT-4,后有馬斯克宣佈要用10萬塊H100組成超級AI訓練集羣。其次就是能源消耗,有數據顯示,全美AI數據中心的耗電量足以點亮整個紐約市。此外,人力成本、訓練數據成本也都是一筆不小的開銷。

而隨着模型的參數數量呈指數級增長,訓練成本也在急劇上升。Anthropic首席執行官Dario Amodei在一檔播客節目中表示,目前正在開發的人工智能模型的訓練成本高達10億美元。但未來三年AI模型的訓練成本將上升到100億美元甚至1000億美元。至於GPT-4o「僅僅1億美元的開發成本,已經不值一提。

主流AI模型的訓練和推理成本

這種成本上的巨大負擔,讓巨頭們紛紛放下參數執念,投身小模型。

小語言模型可以理解是大語言模型的濃縮版本,參數更少,設計更精煉,自然需要更少的數據、訓練時間以及硬件成本。

比如可能僅僅聚焦於法律問題上的小模型,參數不到100億,那它的訓練成本往往可能不到1000萬美元。

而且小模型的性價比不僅體現在訓練端,對於用户來説也是如此。

由於小模型訓練成本低、並且在相應過程中消耗的算力更少,因此小模型的使用價格也顯得更加親民可人。

目前OpenAI的GPT-4o的百萬Tokens輸入和輸出價格分別是5美元和15美元,而GPT-4o mini的百萬Tokens輸入價格僅為15美分,輸出價格僅為60美分,價格速降了96%~97%。

從Artificial Analysis的統計中可以清晰看到大模型與小模型的成本差距。OpenAI CEO 山姆奧特曼對此的形容是:通往智能的成本已經「too cheap to meter」(便宜到無法計量 )。

第二,除了便宜,小模型的性能也已經拉滿。

最新發布的GPT-4o mini,在lmsys(測評榜單)的較量中展現出了超強實力,不僅與GPT-4o的滿血版本並列榜首,還將Claude 3.5等強勁對手甩在身后。

lmsys的排名機制是由用户自主出題,隨機抽取兩個模型進行一對一的較量。這種機制有效防止了模型通過「刷題」來獲得虛高的評分,主打一個真實。

分數不代表一切,實際使用體驗也是效果不錯。

據OpenAI公佈的案例顯示,GPT-4o mini已與Ramp和超人等公司進行了合作,反饋發現在執行從收據文件中提取結構化數據,或在提供線程歷史記錄時,生成高質量電子郵件響應等任務時,GPT-4o mini的表現明顯優於GPT-3.5 Turbo。

更令人期待的是,GPT-4o mini 的API 現已支持文本(且大幅改善了非英文的效率)和視覺,未來還將支持文本、圖像、視頻和音頻輸入和輸出。

不僅是GPT-4o mini,其他幾家的小模型也是爭奇鬥艷。

主流小模型價格能力評價

被譽為「歐洲版 OpenAI」的 Mistral AI 旗下小模型Mistral NeMo,從整體性能上也在多項基準測試中,擊敗了Gemma 2 9B和Llama 3 8B。並且該模型專為全球多語言應用而設計,在英語、法語、德語、葡萄牙語、中文方面等方面表現尤為突出。

而蘋果這次推出DCLM-7B 模型,在MMLU基準上的5-shot準確率達到了64%,與Mistral-7B和Llama 3 8B不相上下,但計算量只有后者的六分之一。在53個自然語言理解任務上,它的平均表現也可以與Llama 3 8B相媲美。

此外,蘋果這波格局了一把。不僅模型本身開源,連訓練數據集都一併公開,讓人們可以完整復現他們的工作。

第三、小模型除了性價比槓槓的,也憑藉着小巧的身姿進入了更多的應用場景。

大模型在使用場景上有很多侷限。比如智能手機、物聯網設備等邊緣設備,通常具有有限的計算能力和存儲空間,無法承載大型語言模型,而這時候小模型則可以完美嵌入。

又比如在對實時性有嚴格要求的應用領域,例如實時圖像分析、語音識別和動態推薦系統,小模型由於參數少,能夠迅速地進行推理,以極短的延迟滿足用户的即時需求。

性價比超高,為何小模型現在才爆?

小模型有這麼多優點,為什麼巨頭們現在纔開始「真香」反轉呢?

Open AI的產品主管Olivier Godement解釋,這單純是「純粹的優先級」問題。之前公司專注於GPT-4這類大模型上,隨着時間的推移,OpenAI才關注到開發者對於小模型的需求。

但也有觀點認為,大模型是通往小模型的必經之路

大型模型的訓練就像是海綿吸水,儘可能把所有數據、信息囊括其中。而這樣做,有利有弊。大型模型在海量數據的依託下,能夠更好、更準確的處理新新任務,但同樣也可能因為學的太雜,而出現不同知識的重疊、混合和衝突。

而小模型則是站在大模型的肩膀上進一步優化。小模型接收的數據,則是由超大模型進行清洗的高質量數據。比如對於GPT-4o mini進行訓練的數據,就是由GPT-4進行清洗的。

而這種先做大模型,再進一步瘦身的訓練模式正在成為新趨勢。科技巨頭們對於不再一味求大,而是求精。

在2023年4月,OpenAI的首席執行官Sam Altman宣佈了大型AI模型時代的結束。他指出,數據質量是AI訓練的關鍵成功因素,並且認為關鍵問題是人工智能系統如何從更少的數據中學到更多的東西。而這個觀點也得到微軟、Hugging Face等其他玩家的認可。

而這種不斷精簡優化的過程則會不斷形成正循環。每一代模型都會幫助生成下一代的訓練數據,直到獲得「完美的訓練集」。

未來,和階梯式上升的小模型質量形成對比的,則是不斷下降的小模型價格。

傅盛曾在WAIC中説道,「千億參數大模型一年私有化授權費用就是幾千萬,到今天應該還是,然后私有化部署以后,買服務器的費用最低成本160萬(當時的價格)」。

大模型太貴了。 蒯義剛也和AI鯨選社説道,他們現在私有化部署一般是四五十萬,爲了成本考量幾乎不太做微調。他們作為落地服務商沒有賺太多,大頭還是大模型企業的授權費用。

現在企業使用大模型成本可能會大幅降低了。AI Grant 的兩位合夥人 Daniel Gross 和 Nat Friedman在訪談中, LLM成本在質量不變差的情況下,每年可以降低 90% 的情況。

OpenAI也確實基本在證明了這件事。OpenAI 基本是以每 3 個月作為一個周期,總會有其中至少一個模型成本下降 60% ,或者成本下降至少 60% 的情況下,質量還更高了。而一個模型基本上一年會經歷兩次的降本增效,每次降低 60%,兩次過后就剛好是比之前降低了 90% 左右。

GPT-4o mini就是這種邏輯的成果體現。而且隨着高質量數據集以及訓練方式的改進,這些小模型有些能力甚至更突出。

正如 AI Grant 所説,沒理由認為更小的模型不會有更好的表現。「最近這些 9B 的模型已經震撼到我們了,沒有任何數學證明 3B 做不到同樣的效果。如果 3B 做到了,沒理由不運行在本地,那麼那時候除了一些電耗問題外,我們更多的肯定是在做本地處理 + 雲端模型的路由。」

換言之,未來將不斷涌現越來越多更精簡、更高效、更便宜的小模型。未來就像OpenAI創始成員及研究科學家Andrej Karpathy所發言,未來大模型的尺寸競爭趨勢即將逆轉,尺寸競爭正在倒退。

企業落地最愛,小模型加速商業化

「企業專用大模型,百億參數就夠了。」是傅盛過去一年經常説的話。

但實際上,2023年將小模型向垂直方向微調,打造出媲美大模型的效果,效果並沒有那麼好,百億參數沒那麼夠。

但現在情況不一樣了,gpt-4o-mini 在很多場景中不用微調,都不比Chat-4 turbo差。

有AI創業者反饋:「gpt-4o-mini 的效果真的不錯。首先是速度非常快,比 4o 快多了,幾乎不需要等待,就可以讀取結果了。其次是實際的表現,GPT-4o-mini 目前僅在複雜場景中還需借力,只有比較複雜一點的編程沒有搞定。「日常的需要搜索引擎+blog 或者教程才能解決的任務,基本GPT-4o-mini 都可以完成的不錯。」

在大模型的託舉之下,小模型正在用更加輕盈的姿態落地。HuggingFace CEO Clem Delangue 甚至指出,多達 99% 的使用場景可以通過 SLM 來解決,並預測 2024 年將是 SLM 元年。

蒯義剛説道,最近有家此前做了醫療和房地產領域的客户,都是用的大模型。4o-mini發佈那天,他看了下資料,比GPT-3.5 Turbo更好的性能,更長的輸出,多模態支持 ,更低的費用,以及更好的非英語語言的支持,感覺是天賜的好模型。

「最近談的一個招聘客户,預計就是使用4o-mini。」生意預計會好做,也讓他的笑聲多了起來。

但他也提到,看行業分析,未來大模型、小模型會相輔相成落地企業的部署。

這意味着模型生態向着流動、精準進一步發展。而從使用場景上,大模型、小模型也將分工明確。

大模型將繼續在需要廣泛知識基礎和高級認知能力的領域中發揮其核心作用;而小模型則以其輕巧的身形和高效的性能,在成本敏感、對響應時間有嚴格要求的應用場景中大放異彩。

正如Forrester Research的資深AI分析師Rowan Curran所比喻:「並非時刻都需要跑車,有時一輛小型貨車或皮卡車更為合適。未來的模型應用不會單一,而是根據不同需求選擇最適宜的工具。」

甚至,未來大、小模型之間會出現任務的上下級協作。

DeepMind、普林斯頓大學和斯坦福大學的研究人員近日提出了一項名為 LATM(LLMs As Tool Makers)的創新框架,即讓大型語言模型生成自己的軟件工具來處理新任務。

它帶來了一種全新的大、小模型的分工形式。即將需要具備高強度算力才能實現的工具製造過程可以分配給功能強大、資源密集型的模型,例如 GPT-4;而將相對簡單的使用工具過程分配給輕量級、經濟高效的模型,也就是小模型。這種模式既節省成本又保證性能。

如今市場上,99%的企業實際上還沒有部署大模型進業務,小模型風靡后,輔以大模型託底,這一巨大的市場會不會在2024年被撕開?

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。