繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

獲紅杉等20億投資,清華系大模型新星完成首秀

2023-10-10 09:51

一家明星大模型公司,完成創業首秀。

10月9日,專注於通用人工智能領域的公司月之暗面(Moonshot Al)宣佈在「長文本」領域實現了突破,推出了*支持輸入20萬漢字的大模型moonshot,以及搭載該模型的智能助手產品Kimi Chat。

月之暗面由清華大學交叉信息學院、智源青年科學家楊植麟教授領銜,其在過去五年內的NLP領域華人學者引用排名中位居前10,並在40歲以下*;兩位聯合創始人周昕宇和吳育昕,也均出身清華。團隊還成功吸引了來自Google、Meta、Amazon等全球*科技公司的海外人才加入。

來源:月之暗面 來源:月之暗面

今年2月,大模型熱潮初起時,市場就有消息傳出:「楊植麟被寄予厚望,由國內最頭部的VC提供孵化式支持。」

短短4個月后,成立僅2個月的月之暗面被曝完成首輪融資。對此,創始人楊植麟「更正」道,公司已獲得紅杉資本、今日資本、礪思資本等知名機構近20億元投資。目前市場上關於估值的表述是「不準確,且偏低的,后續會通過官方形式正式對外公佈。」

楊植麟表示,「目前,團隊成員在50人左右。首輪融資及接下來的新一輪融資,都將主要用於技術產品的研發,以及團隊擴展上。」

1、支持20萬字超長輸入,推動大模型從LLM進入LLLM時代

據楊植麟介紹,公司的名稱來源於自己最喜歡的英國搖滾樂隊發行的專輯《The Dark Side of The Moon》(月之暗面),今年也正好是該專輯發行50周年。同時,「月之暗面」也寄予了團隊想要探索宇宙奧祕,探究代表着高難度月球背面的夢想。

楊植麟表示,月之暗面的創立初衷就是「好奇心,探索未知」;願景則是「對世界有用,與用户共創」;團隊希望AI能夠「普惠、個性化」。

* 長文本打開大模型應用的新世界

當前大模型輸入長度普遍較低的現狀對其技術落地產生了極大制約,例如:目前大火的虛擬角色場景中,由於長文本能力不足,虛擬角色會輕易忘記重要信息,在Character AI的社區中用户就經常抱怨「因為角色在多輪對話后忘記了自己的身份,所以不得不重新開啟新的對話」,等這些類似問題。

月之暗面同樣觀察到了「大模型輸入長度受限帶來的應用困難」,據楊植麟介紹,針對於此,公司實現了「全球最長,支持20萬字超長輸入,大模型產品進入長文本時代」。他也在現場,以Kimi Chat的一些實際使用為例,進行了詳細介紹。

公眾號的長文直接交給Kimi Chat ,讓它幫你快速總結分析:

來源:月之暗面 來源:月之暗面

新鮮出爐的英偉達財報,交給Kimi Chat,快速完成關鍵信息分析:

來源:月之暗面 來源:月之暗面

出差發票太多?全部拖進Kimi Chat,快速整理成需要的信息:

來源:月之暗面 來源:月之暗面

發現了新的算法論文時,Kimi Chat能夠直接幫你根據論文復現代碼:

來源:月之暗面 來源:月之暗面

只需要一個網址,就可以在Kimi Chat中和自己喜歡的原神角色聊天:

來源:月之暗面 來源:月之暗面

輸入整本《月亮與六便士》,讓Kimi Chat和你一起閲讀,幫助你更好的理解和運用書本中的知識:

來源:月之暗面 來源:月之暗面

通過上述例子,我們可以看到,當模型可以處理的上下文變得更長后,大模型的能力能夠覆蓋到更多使用場景,真正在人們的工作、生活、學習中發揮作用,而且由於可以直接基於全文理解進行問答和信息處理,大模型生成的「幻覺」問題也可以得到很大程度地解決。

相比當前市面上以英文為基礎訓練的大模型服務,Kimi Chat具備較強的多語言能力。例如,Kimi Chat在中文上具備顯著優勢,實際使用效果能夠支持約20萬漢字的上下文,2.5倍於Anthropic公司的Claude-100k(實測約8萬字),8倍於OpenAI公司的GPT-4-32k(實測約2.5萬字)。同時,Kimi Chat通過創新的網絡結構和工程優化,在千億參數下實現了無損的長程注意力機制,不依賴於滑動窗口、降採樣、小模型等對性能損害較大的「捷徑」方案。

目前,月之暗面的智能助手產品Kimi Chat已開放了內測。

* 從LLM進入LLLM時代

楊植麟此前曾表示,無論是文字、語音還是視頻,對海量數據的無損壓縮可以實現高程度的智能。

無損壓縮的進展曾極度依賴「參數為王」模式,該模式下壓縮比直接與參數量相關,這極大增加了模型的訓練成本和應用門檻,而月之暗面認為:大模型的能力上限(即無損壓縮比)是由單步能力和執行的步驟數共同決定的。單步能力與參數量正相關,而執行步驟數即上下文長度。

月之暗面相信,更長的上下文長度可以為大模型應用帶來全新的篇章,促使大模型從 LLM時代進入Long LLM (LLLM)時代:

1.每個人都可以擁有一個具備終身記憶的虛擬伴侶,它可以在生命的長河中記住與你交互的所有細節,建立長期的情感連接。

2.每個人都可以擁有一個在工作環境與你共生(co-inhabit)的助手,它知曉公域( 互聯網)和私域(企業內部文檔)的所有知識,並基於此幫助你完成OKR

3.每個人都可以擁有一個無所不知的學習向導,不僅能夠準確地給你提供知識,更能夠引導你跨越學科間的壁壘,更加自由地探索與創新。

當然,更長的上下文長度只是月之暗面在下一代大模型技術上邁出的*步。月之暗面計劃憑藉該領域的*技術,加速大模型技術的創新和應用落地。

2、清華學霸二次創業,曾參與悟道盤古等多個大模型項目

月之暗面能在成立之初就獲得頭部VC押注,與楊植麟本人的「學霸」身份、豐富經歷,關係匪淺。

早在高中時期,楊植麟就表現優異,他在沒有任何編程基礎的情況下,被選拔進信息學奧林匹克競賽培訓班,最終順利通過競賽保送清華大學。

清華求學時,楊植麟師從清華大學計算機系知識工程實驗室(KEG)帶頭人,智源研究院學術副院長、悟道項目負責人唐傑教授。最終他以滿分成績通過所有程序設計課程,並以年級*的成績畢業。

隨后在2015年,楊植麟進入卡內基梅隆大學(CMU)語言技術研究所(LTI),跟隨蘋果公司AI負責人Ruslan Salakhutdinov和Google AI智能首席科學家William W. Cohen攻讀博士學位。

畢業后,楊植麟曾效力於谷歌大腦研究院和Meta(Facebook)人工智能研究院,是Transformer-XL和XLNet的*作者。其中,XLNet模型曾在18項自然語言任務中取得了好於谷歌BERT的效果,是當時NLP領域熱門的國際前沿模型之一。

2018年,作為*作者,楊植麟與圖靈獎得主楊樂昆(Yann LeCun)合作發表論文;與圖靈獎得主約書亞·本吉奧(Yoshua Bengio)合作發表論文。此外,他還曾與Quoc V. Le(Google Brain創始人之一)、何愷明(Kaiming He)等合寫過論文。

據不完全統計,楊植麟曾在ICLR、NeurIPS、ICML、ACL、EMNLP等計算機頂會發表論文20余篇,研究成果累計Google Shcolar引用超過17000。

目前,楊植麟還是清華大學交叉信息研究院的助理教授,研究方向:大規模預訓練,自然語言處理,自然語言理解與生成,少樣本學習,零樣本學習,多模態學習。

現年31歲的楊植麟,在大模型領域,可謂聲名顯赫:循環智能、智譜AI、智源研究院……到處都有他的名字和身影。

同時,楊植麟和團隊也曾作為核心研發成員,參與Google Bard、Gemini、Einstein、盤古、悟道等大模型的研發,發明包括TransformerXL、XLNet、RoPE、Detectron2、Group Normalization在內的AI領域里程碑式的成果,被諸如Google PALM、LLaMa等模型採用。

如今,經驗豐富的楊植麟選擇自主創業,自然受到各方的緊密關注,以及知名投資方的熱情追捧。

天眼查App信息顯示,月之暗面由楊植麟持股78.97%,擁有*控制權。

來源:天眼查 來源:天眼查

3、清華同門組隊,成員堪稱全明星陣容

圍繞在楊植麟身邊的月之暗面創業夥伴,同樣實力非凡,不容小覷。

月之暗面聯合創始人周昕宇持有公司10%股份,他和楊植麟、張宇韜,是清華大學計算機科學與技術系2011級本科的同學。

在大四時,周昕宇就加入各方面都符合他標準的曠視實習,並在畢業之后正式加入,工作內容是算法量產,就是要把算法的生產效率提高很多倍。

工作期間,他和曠視研究院基礎科研負責人張祥雨,攜手研究移動端模型,以共同一作的身份撰寫《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》,中標CVPR。ShuffleNet后來影響了包括蘋果3D人臉解鎖在內的各種手機毫秒級人臉解鎖技術。

月之暗面聯合創始人吳育昕作為持股5.96%的第三大股東,同樣來頭不小。

吳育昕畢業於清華大學與卡耐基梅隆大學,曾獲2018年歐洲計算機視覺會議(ECCV)*論文提名。他是Meta(Facebook)員工,系公司人工智能實驗室FAIR團隊的一員,曾和隊員何愷明共同提出了組歸一化(Group Normalization,簡稱 GN)的方法。

在2018年10月的GeekPwn國際安全極客大賽上,IYSWIM是6個參賽團隊中,*一個破解人臉識別算法的團隊。吳育昕當時以IYSWIM團隊的身份參賽,據他介紹,「自己(以個人名義報名參賽,有名隊友沒有來到現場)用了谷歌的FaceNet開源代碼模型攻破了該算法」。

此外,楊植麟的同門師兄張宇韜,目前持有公司5%股份,最后0.08%股份由汪箴持有。

公開資料顯示,張宇韜本碩均在清華大學計算機系就讀。他的研究方向是異構數據融合和知識圖譜構建,在KDD、CIKM等計算機頂會上發表多篇文章。他作為技術負責人,參與了科技大數據分析平臺AMiner的研發。

汪箴則畢業於復旦大學計算機科學系,后就讀新加坡南洋理工大學計算機工程系,主要研究工作面向AI在鑑證科學上的應用。此前,他曾在Google擔任高級軟件工程師/技術主管,開發移動端網頁搜索、社交平臺等產品。后又擔任新加坡AI技術驅動獨角獸領創集團(ADVANCE.AI)技術委員會負責人/技術副總裁,還有過投資機構的從業經歷。

如果説清華大學撐起了大模型創業的半壁江山,那麼唐傑教授更是中堅力量,智譜AI、智源研究院、月之暗面、循環智能,這些公司都與其關係深厚。

談及與師兄弟甚至師父「同場競技」,楊植麟表示,「我覺得更多的倒不是競技,而是大家共同在這個領域作出各自的貢獻。因為這里面的空間非常大,很難有一家公司可以把所有的事情都做了,大家的側重點各有不同。像月之暗面就是聚焦在C端進行嘗試,而且每一家公司的技術路線也是不一樣的,這里面其實藴藏着巨大的機會。」

除了技術層面的優勢,月之暗面也在產品人才上做足了準備。據楊植麟介紹,團隊中有着擁有幾億DAU經驗,擅長在C端尋找應用場景的產品人才。而這也是現階段,月之暗面聚焦C端用户的底氣所在。

【本文由投資界合作伙伴微信公眾號:獵雲網授權發佈,本平臺僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。