繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

亞馬遜雲科技王曉野:針對業務場景更換大模型,而不是一個模型試驗不同場景 | 2024 ITValue Summit數字價值年會

2024-09-14 12:54

9月11日-14日,由鈦媒體與ITValue共同主辦的2024 ITValue Summit 數字價值年會在三亞舉行。此次峰會主題為「Ready For AI」,交流經驗教訓,交叉行業思考,推動創新交易,以創新場景為基礎,共同探索AI驅動下數字經濟時代的全新機遇,共同打造一場數字經濟時代的AI創新探索盛宴。

大會上,亞馬遜雲科技大中華區產品部技術專家團隊總監王曉野發表了「GenAI驅動場景創新,釋放業務價值」的主題演講。

他表示,企業應當針對業務場景瞭解模型的能力,而不是基於不變的模型不斷嘗試不同的場景。「今天所有的大模型,我們都認為它是三頭六臂,但一定要從企業最想要的功能出發去選擇,這個三頭六臂有的練的是鐵頭功,另一個練的是麒麟臂,一定要匹配最需要的模型。」

此外,數據基礎非常重要,王曉野提到,大模型系統先天就具有幻覺現象,無論是模型也好,還是與模型一起構建的系統也好,從數據的視角看,系統永遠是「垃圾入垃圾出」,或許讓企業真正發揮業務價值的答案,就在數據里。

最后他表示,企業在選擇大模型合作伙伴時,需要有兩個方面的能力,一方面是基礎技術能力,雲廠商從整個算力到數據能力,以及人員支持上能與企業共創。

「從雲廠商的視角看,此時此刻是技術變革的轉折點,這是前所未有的重塑業務的最佳時機。「他説。

以下為王曉野演講內容,經鈦媒體整理:

近些年來雲計算爆發,越來越多的企業擁抱雲計算,推動了從數據到算力,乃至於雲計算整體的發展。過去的模型被生成式模型逐漸替代,它在很多的場景下比小模型有更好的表現。

2024年IDC預測全球40%的企業會在AI上投資,到了2025年是68.6%。現在各位有沒有這樣的感覺,AI是不是到了像之前的元宇宙一樣,走到向下行或者這一波浪潮結束的階段。

給出答案之前,先來看看我們的合作伙伴法拉利。法拉利在使用AI技術定製化汽車的顏色,以及賦能幾千名維修人員,同時生成式AI也廣泛加速汽車模擬場景的AI應用。

回到剛纔提的問題,如果説2023年大家處於FOMO(Fear of Missing Out)的狀態,追着我們問,什麼是大模型,大模型能做什麼,我們能在什麼場景用。到了2024年,客户跟我們談得最多的是實際的問題,這個模型后還能不能再便宜一點,能不能用其他的模型替換。這一年AI話題雖然被討論了很多,但還只是一個開始,相信下一個時代,由於技術的改變,各行各業會更積極地擁抱AI。

我們很早以前就推薦給廣大企業,擁抱生成式AI的路徑。即從業務場景開始,再準備數據,必經的過程是企業對自己的數據進行定製,最重要的是后面的工程化和應用集成,並服務到業務中。這個過程不是一蹴而就,需要持續地迭代。直到今天這個過程完全沒有變。

大模型的關鍵,在於匹配場景

我想強調的一件事情,還是從場景出發,企業自身的場景,而且反覆迭代。今天所有的大模型,我們都認為它是三頭六臂,但一定要從企業最想要的功能出發去選擇,這個三頭六臂有的練的是鐵頭功,另一個練的是麒麟臂,一定要匹配您最需要的模型。

以亞馬遜雲科技自身來講,我們自身應用AI的場景是不一樣的,我們推出了生成式AI快速總結客户評價;如果想給一個小姑娘買聖誕禮物,我們推出專業的AI購物助手;在藥房的場景下,可以從非結構化的處方信息快速提取用藥信息,幫助藥房撿藥,告訴病人如何使用藥品。每個場景背后都不是相同的模型。

雖然有些場景看似眼熟,但細分關注的信息和需要的能力不一樣。比如翻譯,文章翻譯和實時翻譯,推理的速度要求不一樣,在時效性要求高的場景下,企業要關注的是模型是否能以比較低的成本高速響應需求,滿足場景。

再如以前的翻譯可能關注準確性,但是在企業廣泛出海的情況下,關注的是對於當地文化的理解,企業在本地運營語言翻譯既要合規,同時具有當地文化特色。我們的合作伙伴NOTTA是專注於做會議轉錄的公司,利用大模型將業務快速擴展到50多個國家。

在智能運營場景,對於用户聲音、客户評論情感的分析,以及對應詞條背后邏輯關聯的梳理。SHULEX致力於賦能品牌出海,對於用户的流程有10%以上的效果提升。

在品牌宣傳營銷場景,我們看重的是模型的個性化、豐富程度。例如賽狐ERP,利用大模型生成文案,同時可以控制生成關鍵詞,不僅實現文案生成效率的提升,還植入亞馬遜雲科技檢索的關鍵詞。

在客服場景,我們也需要不同方向的能力。第一,知識內部的高度總結,需要模型能夠在抽取信息之上有比較好的總結。例如華通證券應用大模型大大縮短了客户響應時間。對於虛擬助理場景,我們關注的是結合用户信息、過往交互,判定他是採購一個新的產品還是做投訴,華寶新能用自己的客服機器人進行識別,輕松識別是做售前關懷還是售后支持。

對於風控場景,我們看到的是模型對於內容的理解,以及對於審覈標準的執行,今天多模態的模型,除了文字、語言,還有類似遊戲聊天窗口發的圖像。連續多模態語意的理解,這是過去模型做得不太好的地方,目前沐瞳科技實現了90%以上的辱罵識別率。

講了這麼多場景匹配,核心的觀點是我們認為不會有一個模型一統天下,我們希望通過Amazon Bedrock這樣的產品,讓絕大多數的用户瞭解到不同領域的模型,在國內中文的語境和出入境合規的場景下,需要本地模型的支持,我們也在積極的跟國內企業合作,選擇最適合企業的模型匹配他們的場景。

Ready for AI,數據先行

在模型之外,數據的重要性不言而喻。

無論是模型也好,還是跟模型一起構建的系統也好,從數據的視角看,這個系統來説永遠是「垃圾入垃圾出」,無論是訓練模型還是通過知識庫,餵給系統什麼樣的數據出來就是什麼樣的效果。

今天生成式模型原理上存在幻覺,或許讓企業真正發揮業務價值的答案,就在數據里。

從Data for AI看,企業額外投入的是這幾個層面:第一,迭代模型視角,有沒有足夠的能力為模型準備優秀的數據,有沒有建立數據的閉環;第二,在整個模型應用的過程中,數據如何高效提供給業務,比如知識庫可以檢索公開數據,調用海量的知識。假設今天搜索場景高併發的情況下,能不能提供在線服務和線下海量交互生成的數據循環回來,為模型服務的數據能力是否具備。這些場景都是企業需要投入和思考的。

如何應用數據定製企業自身的獨立特點?我們可以做PE(Prompt Engineering),可以做RAG,可以微調。很多人走了認知上的彎路,這不是我們技能上出了問題,是整個行業都在摸索、共創、探索。

剛纔提到數據服務AI,如果沒有做好元數據管理,企業有什麼數據不知道怎麼用,那就是一個挑戰,也可以説是新的機會。過去我們只能基於表格或者數據庫整理數據,通過人工梳理的元數據,今天有非常多的數據用到模型的能力,重新定義元數據管理。

舉個例子,在汽車自動駕駛領域,駕駛數據實際上只有1%真正可以用來做模型訓練,或者是對模型訓練的結果有用。多模態對場景的理解是非常好的機會。全球已經有非常多的數據廠商都走向這個方向,包括做數據集成,他們已經推出生成式管理。Data for AI這件事在數據管理上又是一個新的機會。

回到數據能力,數據能力好意味着什麼?有幾個例子,第一個是WPS,基於過去PPT生成模板,在短短的幾個月內幫他們實現兩個場景,一個是文本的潤色翻譯,二是PPT自動生成,大模型完成大綱生成和詳細描述,背后的模板生成都是常年積累下來的數據。

當企業構建一個應用時,我建議大家加強數據技術的能力,同時要關注選擇什麼樣的項目。不知道如何立項時,從自己的客户,無論是內部、外部,還有自己的場景出發,背后還有非常重要的一些事情,人員的技能。

對於生成式AI,要求的技能完全不一樣,包括工程化的技能、生成式的圖片,如何管理隱私數據的保護,這些事情過去都是要做的,只是生成式AI的要求更高,對企業需要投入的資金,以及能力、精力提出了前所未有的標準。

亞馬遜雲科技不僅從雲產品技術上服務客户,我們還有非常多的團隊,有以年為周期的聯合實驗室,有專業數據的應用科學家和模型科學家一起研究,積累了對模型能力的瞭解,對數據能力的瞭解,以及工程化能力。

舉一個西門子的案例,西門子之所以在很早就取得了成果,第一,多年前我們已經有非常強的合作,構建了西門子內部大平臺,纔有了后面的數據RAG,也非常符合今天的主題,「Ready For AI」。第二是大語言模型,我們成立了共建部門,並且發佈了西門子「小禹」機器人,服務於西門子。

快速總結成功企業的經驗,一是要針對業務場景瞭解模型的能力,而不是本着不變的模型不斷地試不同的場景。第二是數據的基礎非常重要,第三,如果説選擇合作伙伴,需要有兩個方面的能力,一方面是基礎技術能力,雲廠商從整個算力到數據能力,以及人員支持上與企業共創。同時,我相信我們的企業在未來的投入的比例上,數據、人才和背后整個公司對於AI數量的投入佔到未來企業精力50%以上。

從雲廠商的視角看,此時此刻是技術變革的轉折點,這是前所未有的重塑業務的最佳時機。借用法拉力的話結束今天的演講,最偉大的法拉利永遠是沒有設計出來、製造出來的下一款。

以上是我的分享,謝謝!

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。