繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

OpenAI的《Her》難產,是被什麼困住了手腳?

2024-07-27 11:58

夢晨 發自 凹非寺

量子位 | 公眾號 QbitAI

兩個月又兩周過去了,我們仍然沒有見到公開發布版的OpenAI《Her》。

5月14日,OpenAI發佈GPT-4o和端到端實時音視頻對話模式,現場演示AI對話絲滑如人類。

它能感受到你的呼吸節奏,也能用比以前更豐富的語氣實時回覆,甚至可以做到隨時打斷AI,效果非常驚艷。

可萬衆期待中,不時有推迟的消息傳出。

是什麼拖住了OpenAI的后腿?根據已知情報:

法律糾紛,要確保語音音色不會再出現與「寡姐」斯佳麗·約翰遜這樣的爭議。

也有安全問題,需要做好對齊,以及實時音視頻對話開啟新的使用場景,被當成詐騙工具也會是其中之一。

……

不過,除了以上這些,還有什麼技術問題和困難需要克服嗎?

渡過最初的熱鬧后,內行們開始看門道了。

眼尖的網友可能已經注意到,發佈會現場演示手機可是插着網線的

在業內人士眼中,GPT-4o發佈會演示效果如此絲滑,還是有幾大限制:

需要「固定網絡、固定設備、固定物理環境」

真的公開發布后,全球用户能否獲得與發佈會相比不打折扣的體驗,也還是個未知數。

發佈會現場還有一個有趣的細節,帥氣的研究員小哥Barret Zoph,在演示視頻通話時被ChatGPT當成桌子

視頻通話部分的延迟可見一斑了,語音部分提問已經處理完了,視覺部分還在處理上一個鏡頭,也就是手機剛被拿起來時攝像頭拍到的木桌。

試想最終發佈后,很多人用它的場景是什麼?

宣傳片中一個最為人津津樂道的案例,盲人在AI語音的幫助下招手打車,一時間被網友津津樂道。

不過也要注意到,這會是一個非常依賴低延迟特性的場景,如果AI指導來的稍慢一點,出租車也就開過去了。

室外場景網絡信號都不一定能保證穩定,更別提機場火車站、旅遊景點這些人多設備多擠佔帶寬的場景,難度還要增加不少。

此外,室外場景還會出現噪音的問題

大模型本來就深受「幻覺」問題困擾,如果噪音影響到用户語音的識別,出現一些與指令不相關的詞語,那回答就不知道拐到哪去了。

最后,還有一個容易被忽視的問題,多設備適配

可以看出目前OpenAI發佈會和宣傳片,清一色用的新款iPhone Pro。

否能在較低端的機型也獲得一致體驗,也要等正式發佈后再揭曉了。

OpenAI宣傳GPT-4o可以在短至232毫秒、平均320毫秒的時間內響應音頻輸入,與人類在對話中的反應速度一致。

但這只是大模型從輸入到輸出的時間,並非整個系統。

總而言之,僅僅把AI能做好,還搞不出《Her》一般絲滑的體驗,還需要低延時、多設備適配、應對多種網絡條件和嘈雜環境等一系列能力。

光靠AI,還做不出《Her》

要做到低延時、多設備適配等,靠的就是RTC(實時通信,Real-Time Communications)技術了。

在AI時代之前,RTC技術已廣泛用於直播、視頻會議等場景,發展的較為成熟。

在RTC視角下,用户的語音提示詞在輸入大模型之前,還要經歷一整套複雜流程。

信號採集與預處理:在手機等端側設備,將用户的語音採集成原始信號,並對其進行降噪、消除回聲等處理,為后續識別做好準備。

語音編碼與壓縮:為儘量節省傳輸帶寬,要對語音信號進行編碼和壓縮。同時,還要根據網絡實際情況自適應地加入一些冗余和糾錯機制,以抵抗網絡丟包。

網絡傳輸:壓縮后的語音數據被切分成一個個數據包,通過互聯網送往雲端。如果距離服務器物理距離較遠,傳輸往往還要經過多個節點,每一跳都可能引入延迟和丟包。

語音解碼與還原:數據包到達服務器后,系統對其進行解碼,還原出原始的語音信號。

最后才輪到AI出手,先通過Embedding模型將語音信號轉化為tokens,才能真正讓端到端多模態大模型能夠理解並生成回覆。

當然,大模型生成回覆后還要走一套相反的流程,再把回覆的音頻信號最終傳回給用户。

整個一套流程走下來,每一個環節都需要極致的優化,才能真正把AI音視頻對話做到實時。

其中對大模型本身的壓縮、量化等手段畢竟會影響AI能力,結合音頻信號處理、網絡丟包等因素聯合優化,就顯得尤為重要了。

據瞭解,OpenAI也並不是獨立解決這個問題的,而是選擇與第三合作。

合作伙伴為開源RTC廠商LiveKit,目前憑藉支持ChatGPT語音模式成為業界關注焦點。

除OpenAI之外,LiveKit與Character.ai、ElevenLabs等相關AI公司也都展開了合作。

可能除了谷歌等少數有較為成熟的自研RTC技術的巨頭之外,與術業有專攻的RTC廠商合作,是AI實時音視頻對話玩家目前的主流選擇

這一波當然也少不了國內玩家參與,不少國內AI公司已經在加緊研發端到端多模態大模型以及AI實時音視頻對話應用。

國內AI應用能不能趕上OpenAI的效果,大家又什麼時候能真正親自上手體驗到呢?

由於這些項目基本都在早期階段,公開透露的消息並不多,不過他們的RTC合作伙伴聲網倒成了一個突破口。

量子位從聲網處打聽到,以目前國內的技術水平,已經能把一輪對話的延迟壓到1秒左右,再輔以更多優化技巧,實現能及時響應的流暢對話已不成問題。

做好RTC,AI不只是《Her》

聲網是誰?

RTC行業代表性企業,2020年成為全球實時互動雲服務第一股,

聲網上一次出圈,是因為對紅極一時的音頻社交應用Clubhouse提供技術支持。

實際上,B站、小米、小紅書等許多大家耳熟能詳的應用都選擇聲網的RTC解決方案,海外業務這幾年也發展迅速。

那麼對於,AI實時音視頻對話應用,具體該怎麼解決低延迟、多設備適配這些難點,又能做到什麼效果呢?

我們請到了聲網首席科學家、CTO鍾聲來回答這個問題。

據鍾聲介紹,不計算大模型推理,光説信號在網絡線路上一來一回的時間,已經可以做到到70-300毫秒

具體來説,主要從三個方面入手優化。

首先,聲網在全球建設了200多個數據中心,建立連接時選址也都是選在離終端用户最近的地方。

結合上智能路由技術,就可以在當某條線路擁堵,系統可自動選擇其它延迟和帶寬更優的路徑,確保通信質量。

如果不涉及跨區域傳輸,就可以端到端低於100ms。如果包含跨區域,比如從中國到美國,更偏向200-300ms。

第二,成立於2014年的聲網,正在根據多年來積累的海量真實場景數據,通過數據挖掘分析出各種弱網場景,然后在實驗室中進行復現。這為優化傳輸算法提供了」靶場」,使之能應對複雜多變的網絡環境;也可以在實時傳輸過程中出現對應的弱網模式時及時做出傳輸策略的調整使得傳輸更順利進行。

第三,聲網針對垂直行業、特定任務,也在嘗試定製參數量更小的模型,壓縮大模型自身的響應時間。特定大小的大語言模型和語音模型的極限能力是值得探索的方向,這對優化對話式AI或者chatbot的性價比以及低延時體驗很關鍵。

最后,聲網開發的RTC SDK也針對不同的終端設備進行適配與優化,尤其針對一些低端機型,可以做到低功耗、低內存佔用、極小包體等。尤其是設備端的基於AI算法的語音降噪、回聲消除、視頻質量提升的能力,可以直接影響AI chatbot的適用範圍和效果。

鍾聲還介紹到,在他們探索RTC與大模型技術的結合過程中,RTC技術本身的範疇也在變化。

他舉了自己的一些思考方向,比如可以從傳輸音頻信號改成傳輸大模型可以直接理解的tokens,甚至可以把語音轉文字(STT)和情緒識別在端上實現,這樣可以僅傳送文字及相關情緒參數。

這樣一來,就可以把更多信號處理流程放在端側,把算力需求較小的Embbeding模型放在離用户更近的地方,減少整個流程的帶寬需求和雲端模型的成本了。

從這一點出發,鍾聲認為最后AI與RTC技術結合的形態,會走向端雲結合。

也就是不能完全依賴雲端的大模型,無論是從成本、能耗、延迟的體驗,這都不是最好的選擇。

在端雲結合觀點下,整個基礎設施相應的都需要變化,算力不僅在雲端,手機的算力也會被用上。邊緣端的傳輸節點也會分佈算力,數據傳輸協議也會相應變化……

目前,聲網與大模型應用廠商已摸索出三種合作模式,也就是整個系統中,大模型、RTC與雲服務器三個部分的不同供應方式:

  • 私有化部署:聲網只提供RTC SDK,與大模型一起部署在合作伙伴自己的數據中心,適合有自研大模型或大模型推理基礎設施的公司選擇。

  • 聲網雲平臺:聲網提供RTC SDK和雲服務器資源,開發者可根據需求靈活選擇模型、部署位置與計算資源。無需自建基礎架構,快速構建AI語音應用。

  • 聲網端到端解決方案:聲網提供自研大模型、RTC SDK與雲服務器資源。可為細分行業如教育、電商、社交娛樂、客服等定製垂類模型,並與RTC能力深度整合,提供一體化的語音交互解決方案。

而且已有合作項目中,跑得快的應用離與大家見面的時間不遠了。

在與聲網的交流中,量子位發現還有一個值得關注的新趨勢:

國內AI應用,形態上逐漸在超越AI助手問答與AI情感陪伴的範疇。

就拿社交娛樂、電商直播以及在線教育這些行業來説,大家最關注的就是網紅主播和名師。AI實時音視頻對話驅動的數字人,就可以成為他們的「數字分身」,進一步和每個粉絲或學生進行一對一的交流互動。同時用户本身的時間和精力也有限,分身乏術,對自身的AI分身也有需求。隨着技術的發展、AI分身技術體驗的提升、成本的下降,他們的應用範圍會日益擴大。

拿鍾聲的話來説「人終極最稀缺的東西就是時間」:

我們肯定都有這種體會,如果説兩個會議衝突了,只能參加一個怎麼辦?

可能自己參加一個,派AI助手去參加另一個活動,把精彩的信息帶回來。以后甚至這個助手可以是自己的AI分身,在活動過程中可以做個性化的交流,按自己的興趣和關注點提問或回答各種各樣的問題,與其他人或者其他人的分身互動。

所以説,AI實時音視頻對話能做的,還遠不止是《Her》。

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。