熱門資訊> 正文

OpenAI神祕模型「草莓」兩周內上線？數學推理暴漲，月收費200刀已有人付費

2024-09-11 12:54

最新消息，「草莓」將在兩周內發佈！

這一消息由外媒The Information曝出，據稱是兩位已經測試過草莓模型的人士透露的。

發佈時間比此前報道的秋季要早。

草莓跟其他模型的最大區別是啥呢？

答案是，更智能，但更慢、更貴。

而知名爆料人Jimmy Apples的説法是，一個模型（可能被稱為GPT-4.5）預計會在十月發佈。

與此同時，GPT-5很可能會在12月發佈，但保險起見，説2025年第一或第二季度發佈，是比較穩妥的。

在9月3日，Jimmy Apple還曾經艾特Sam Altman，戲謔地問道：「我耳邊的低語是真的嗎？我們終於要在十月做一些事了嗎？」

根據Jimmy Apple的説法，需要耐心的時代已經過去，現在，我們迎來了發佈的季節。

而AI大V「數字生命卡茲克」表示，自己的朋友發現ChatGPT Pro會員已經上線了，售價200美元每月。

他們推測，ChatGPT Pro會員，或許就是為即將上線的草莓而準備的。

不過根據此前的爆料，草莓本身的目的，似乎是為OpenAI的下一代大模型獵户座生成更高質量數據。

因此也有人説，我們不必對草莓抱以過高期待。

草莓，比我們預期的更早？

據悉，兩位已經測試過草莓模型的人士透露，OpenAI計劃在兩周內將其作為ChatGPT服務的一部分發布。

這一次，報道中透露了一些新細節。

首先，雖然草莓是ChatGPT的一部分，但它是一個獨立的產品。

目前還不清楚它將如何推出，一種可能是將其包含這種驅動ChatGPT的AI模型的下拉菜單中，根據兩位人士的説法。

這就會讓草莓跟常規的服務有很大不同。

第二點，草莓和其他對話式AI最大的區別，就是它在響應之前會思考10到20秒，然后纔回答問題。

多個網友現身説法，表示自己上周發現ChatGPT返回某個響應時需要10秒才能加載，或許OpenAI已經在進行a/b測試了。

第三點，草莓的初始版本目前只能接收和生成文本，而不能處理圖像，這也就意味着，它尚未像OpenAI的其他模型一樣實現多模態功能。

因為如今發佈的大多數LLM都是多模態的，這個缺陷對比之下就很顯著。

最后，就是定價問題了。

現在OpenAI的聊天機器人有免費的，也有分等級的訂閲價格。

草莓可能會有低價位和高價位的兩檔，前者會有速率限制，並且限制用户每小時的最大消息數量；而更高價位的版本，響應的速度也會更快。

這種安排，當然也是希望讓更多用户為新模型付費，就像此前OpenAI限制ChatGPT免費用户消息數量一樣。

草莓會怎樣收費呢？

根據The Information此前的爆料，每月50、75、200、2000刀似乎都有可能。

一位知情人士稱，在OpenAI早期的內部討論中，訂閲價格曾高達每月2000美元，但並未最終確定

如今看來，200美元/月的定價應該是沒跑了。

來源：數字生命卡茲克

The Information還預測，目前為ChatGPT付費（每月20美元）的客户，會比免費用户更早訪問首個草莓模型。

處理複雜問題更拿手

據悉，草莓會比GPT-4o更擅長複雜的問題，或多步驟查詢。

目前，如果用户想在ChatGPT中得到理想的答案，往往還需要輸入各種格外的prompt。

比如用「連貫思維提示」，讓ChatGPT通過中間推理步驟來得出答案。

而草莓可能會避免這種麻煩，讓用户一步得到結果。

這也就意味着，草莓不僅在數學和編碼問題上會更好，還會更擅長主觀的商業任務，比如頭腦風暴一個產品營銷策略。

爆料人表示，草莓的思考步驟，會避免它出錯。

而多思考的那十秒到二十秒，會讓它更可能知道，何時要向客户詢問后續問題，來完成對他們的解答。

多思考20秒是雞肋？

然而兩位人士透露，OpenAI還需要再解決一些問題。

比如，理論上講，草莓應該能夠在用户提出簡單問題時，跳過其思考步驟。然而在實際應用中，模型並不總是這樣。

它可能會錯誤地花費過多時間，來回答那些其他OpenAI模型很快就能回答的問題。

用過草莓模型的人抱怨説，跟GPT-4o相比，草莓的回覆只是稍稍更好一些，但並沒有好到值得用户去等10到20秒。

另外，OpenAI希望迎合用户的這一特定偏好：在回答新問題前，草莓會記住並且整合與用户先前的聊天記錄。

這個細節非常重要，比如如果用户希望軟件代碼以某種格式書寫的時候，這種能力就非常有用。

然而令人沮喪的是，草莓並不總是能做到這一點。

網友吐槽：還要擠多久？

冷知識：距離OpenAI發佈GPT-4，已經過去了一年零六個月。而新模型的影子，至今還沒看到。

OpenAI的草莓，來來回回炒作了好幾遍。狼來了的故事來了太多次，網友們都快麻了。

別家都是要發模型就乾脆利落地發，只有它把同一個話題來回來去地炒，就是不發真東西。

現在提起OpenAI，很多羣眾的第一反應就是——

沒錯，它已經逐漸淪為「炒作」的代名詞。

更有網友做出梗圖，調侃道：OpenAI發佈新模型的姿勢是這樣的——

這樣的——

以及這樣的——

本來在大模型領域，OpenAI是遙遙領先的領導者。但如今，競爭者們早已后來居上了。

上個月，谷歌就推出了AI語音助手，能夠靈活處理用户的突然中斷和話題變化。

要知道，OpenAI在五月就首發了「Her」的功能，然而這個語音助手GPT-4o Voice隨后卻推迟了發佈，原因是OpenAI在提高安全措施，確保模型拒絕不當內容。

如今正值草莓模型的發佈前期，可能OpenAI也在做類似的準備。

而最令人失望的一點其實是，跟前兩年的如火如荼相比，今年OpenAI的發展似乎已經停滯了。

與此同時，模型的計算量、參數大小、數據集大小，都紛紛遭遇瓶頸，開源模型和閉源模型的能力也在逐漸縮小。

是不是因為沒有不夠的GPU，所以我們現在依然離AGI如此遙遠？

如何破局？用RL

打破瓶頸的方法，如今各家都走到了同一路徑——Self-play RL。

在LLM領域，自我博弈理論看起來就像是AI反饋

Claude 3.5就是基於Self-play RL做出的，因此代碼能力強到突出。

而我們都知道，草莓有一個重要作用，就是給下一代大模型合成數據，這里面有個前提，就是它同樣是基於新範式Self-play做出的。

很多LLM的弱點就在推理能力上，而有些初創公司爲了提高它們的推理能力，就採用了一種廉價的技巧，將問題分解為更小的步驟，儘管這些方法速度慢且成本高昂。

AlphaGo就是通過Self-play學習，擊敗了李世石

在草莓中，我們也看到了類似的思路。

用Self-play RL去驗證，自然就能讓草莓的數學和代碼能力上飛速暴漲。

同樣，付出的代價就是極高的推理成本，導致它又貴、又慢。

但得到的結果，是極高的智能，或許啓發我們通往AGI的路線，就靠草莓這種思路了。

説起來，「草莓之父」，其實就是已經離職了的OpenAI的首席科學家Ilya Sutskever。

據悉，OpenAI的一些人認為Q*可能是OpenAI在AGI上取得的一個突破

在Ilya離職之前，OpenAI的研究人員Jakub Pachocki和Szymon Sidor，在Ilya的工作基礎上開發了一個新的數學求解模型Q*。

據稱，Q*解決的此前從未見過的數學題。

另外，在去年Q*的前期準備中，OpenAI研究人員開發了一種被稱為「測試時計算」的概念變體，目的是提升LLM的問題解決能力。

這樣，LLM就會花更多時間考慮被要求執行的命令，或問題的各個部分。

當時，Ilya發表了一篇與這項工作相關的博客，展示了模型如何解決了數個極有難度的數學問題。

比如在下面這道題中，GPT-4成功執行了一系列複雜的多項式分解。

基於這類技術做出的草莓，雖然更貴、更慢，但數學和推理的進步無疑是驚人的。

或許對於普通用户，它未必是一個更值得付費的產品。

但對於需要高階能力的場景，草莓會更有發揮的余地。

大佬猜測：谷歌DeepMind論文疑似揭示方法

有趣的是，Menlo風投負責人、前谷歌搜索工程師Debarghya Das發推稱：Google DeepMind在最近一篇論文中提出的方法，可能就是OpenAI在Strawberry上用的。

論文提出，讓LLM進行更多的「測試時計算」（test-time computation），對於構建能在開放語境下操作、能實現自我提升的agent，是關鍵的一步

而這篇論文就重點研究了擴展「推理期計算」（inference-time computation）這個問題。

如果允許LLM使用固定但非平凡量的推理期計算，它在應對具有挑戰性的提示詞時，可以有多少性能提升？

這個問題不僅影響LLM的可實現性能，還關係到LLM預訓練的未來，以及如何在推理計算和預訓練計算之間進行權衡。

爲了回答這個問題，研究團隊分析了擴展測試時計算的兩種主要機制：（1）針對密集的、基於過程的驗證器獎勵模型進行搜索；（2）根據測試時得到的提示詞，自適應更新模型對響應的分佈。

結果顯示，在這兩種情況下，對測試時計算的不同擴展方法的有效性，很大程度上取決於提示詞的難度。

論文地址：https://arxiv.org/abs/2408.03314

基於此，研究團隊提出了一種「計算最優」擴展策略——通過為每個提示詞自適應地分配測試時計算，使測試時計算的擴展的效率提高4倍以上。

另外，在FLOPs一致的評估中，對於那些較小的基礎模型已取得一定程度非平凡成功率的問題，測試時計算可以使其超越規模大14倍的模型。

不過，網友們對這一猜測並不認可。

Topology首席執行官Aidan McLaughlin表示，谷歌DeepMind探討的是最佳N採樣和蒙特卡洛樹搜索（MCTS）。

而「草莓」可能會是一個具有特殊token（回溯、規劃等）的深度混合模型。它可能會通過人類數據標註者和來自易於驗證領域（如數學/編程）的強化學習進行訓練。

另一位網友也提出疑問——「草莓」不是一個神經符號模型嗎？

對此，Deedy解釋道：「根據網上的這些信息和傳聞：『草莓』將通過在響應空間中使用搜索技術來改進推理，其推理時間計算為10到20秒。」

而這，正是這項研究所解釋的內容。

（聲明：本文僅代表作者觀點，不代表新浪網立場。）

OpenAI神祕模型「草莓」兩周內上線？數學推理暴漲，月收費200刀已有人付費

推薦文章

牛市來了？港股迎歷史性大利好！減息期港股該買什麼

AI熱潮將重回巔峰？Wedbush：美聯儲降息為科技股注入「強心針」！

巴菲特再拋售美銀近9億美元股票，已收回全部投資成本

華盛早報 | 美股再創新高！標普500指數首次站上5700點；美銀預計：年底前還將降息75個基點

耐克委任公司老將接替Donahoe出任CEO，股價盤后一度上漲11%

多項利好拯救「大廠」英特爾！股價逆勢之路就此開啟？

美國首次申請失業救濟人數降至四個月低點 表明就業市場保持健康

美股機會日報 | 三大期指盤前暴漲！標普500指數勢創歷史新高；機構料美股年內將繼續攀升

美國首次申請失業救濟人數降至四個月低點表明就業市場保持健康