繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

明年,每個人都能零基礎創作3D內容 | 對話VAST宋亞宸

2024-07-14 13:41

大家對生成視覺領域有着這樣的認知:先有圖像生成、視頻生成,再有3D生成。

圖像生成的DALL·E、Midjourney,視頻生成的Sora、可靈都已經有了驚艷的表現。實際上3D生成發展也並不落后。

早在去年年底VAST就推出了AI 3D大模型Tripo。今年3月,VAST與Stability共同發佈了能0.5秒圖生3D的開源模型TripoSR

量子位「365行AI落地方案」邀請到了VAST CEO宋亞宸為我們介紹3D大模型的落地進展,以及對發展前景的思考。

在宋亞宸看來,做3D大模型是先做「手機攝像頭」,再做3D內容平臺即「3D抖音」。對於在3D生成領域眾望所歸的VAST而言,已經有了充足勢能從技術、產品,做到內容平臺。

宋亞宸也反覆強調作為創業公司,最重要的壁壘其實是初心。三個月后,我們會看到VAST帶來3D大模型用户體驗的拐點嗎?讓我們拭目以待。

以下根據分享實錄整理成文,在不改變原意基礎上有所刪減

VAST是一家做3D大模型的公司。什麼叫3D大模型呢?

3D大模型的主要交互方式是通過文字或者圖片生成3D模型,這個生成的3D模型的表達方式是帶貼圖材質的Mesh,可以在很多傳統的3D管線中得到應用,比如動畫、遊戲、3D打印、工業設計、數字孿生、仿真模擬等等。

VAST的大模型產品已經上線了,叫做Tripo,已經可以在Discord或Web中使用。包括靜態3D模型的生成、骨骼自動綁定、動作生成、3D風格化,及各種格式的導出和轉換,都可以在tripo3d.ai中體驗。

大家可能對語言大模型像ChatGPT,或是文生圖大模型像Midjourney更熟悉,那麼3D大模型和他們有什麼區別,又在什麼樣的發展節點上呢?

3D大模型與圖形學的關係很大,過去圖形學和AI的結合並不多,直到最近一些新的3D表達方式出現,讓3D模型可以更好地被作為AI大模型訓練的數據。

現在是2024年6月,3D大模型的成熟度已經超越了類似於GPT3或者Midjourney V3的水平。再過三個月2024年9月,我們相信它可以達到GPT3.5或是Midjoueney V4的水平,也就是用户體驗的拐點。

所以當我們去討論商業化、包括產品功能的時候,我們首先應該認識到現在的技術還不是完全成熟的技術,很多商業化場景還不能直接使用現在生成的3D模型。因此,隨着近期3D生成大模型的快速迭代和演進,技術的落地場景會更加廣泛,商業化潛力也會更大。

當然除了我們,谷歌、英偉達、OpenAI、Meta、Adobe等大廠也紛紛佈局了3D生成賽道。但是過去3D生成其實一直都存在問題。

首先是技術路線不清晰,其次是訓練數據集稀缺,公開數據集少,而且開源數據集數量和質量都較差。不管創業公司還是大廠、研究院都沒有足夠數據來訓練。最后是生成成本高,需要大量GPU進行訓練和推理。

我們一一解決了這三點問題。第一,是在學術上統一了技術路線,第二,是收集了大量的3D原生的、高質量數據集,目前在2000多萬的級別,可以説是全球第一。第三,是生成成本,因為算法工程團隊的極致優化,每個模型的生成成本幾乎接近於零。

我們在技術、數據的優勢都離不開優秀的算法團隊。去年,我們6投6中CVPR,同時其他幾篇論文也被Siggraph、ICLR、ECCV等學術頂會所接收。我們也進行了不少開源項目的嘗試。今年3月,與Stability AI合作推出了TripoSR(GitHub 4K stars),是最大、最好、最快的3D生成大模型。還有ThreeStudio(GitHub5.9K stars)、Wonder3D(GitHub4.5K stars)、TGS、CSD等等受到行業矚目的高質量開源項目。

在技術上我們主要有三點優勢。第一點,是我們生成的結果精度高,泛化性強。我們生成3D模型的幾何、佈線、材質、紋理非常優秀,在複雜的組合模型的泛化性上表現也很好,比如生成騎在烏龜背上的綠色大象等等。

第二點,是我們對於生成過程有非常強的可控性,不管是在文生的正負向提示詞上還是在圖生的高度還原上,我們都可以保持本身風格的一致性,這在商業化管線中意義重大。

第三點,是我們生成的不只是靜態的虛擬資產,還包括物體的動態表達,比如自動骨骼綁定及動作生成。我們希望未來能夠生成更豐富的3D內容模態,不斷降低3D內容的創作門檻。

我們通過兩方面不斷積累技術優勢。一方面,是我們認為3D的表達方式很關鍵,我們投入了大量的時間和技術來研究最適合大模型訓練的表達方式,需要使tokenizer達到最高的壓縮率、保真率、還原率等等特徵。

另一方面,是產品上線以來,Tripo3d.ai獲得了業界的廣泛關注。現在海外有數十萬開發者在使用Tripo進行創作,與數百家客户緊密合作,目前已生成超過400萬個3D模型,這些用户和客户的真實反饋給我們迭代技術提供了大量的human feedback,形成了數據的飛輪。

那麼VAST最終想要做什麼呢?我們希望在明年,能夠讓每個人都有能力創作完整的3D內容。即使完全不會使用專業3D建模工具的創作者,也能夠通過描述可控地、低成本地生成完整的3D內容。

文字、圖片、視頻、聲音等各種信息載體,都已經有了屬於自己品類的大眾內容平臺了,比如説文字信息的Twitter,圖片的Instagram,視頻的TikTok,音樂的Spotify等。

但是對於3D內容,目前還未出現大眾級別的內容平臺,而大眾內容平臺的商業化價值是被無數次驗證的,市場的空間非常大。

我們認為現在還沒有出現3D大眾內容平臺的原因是,3D缺乏一個大眾級別的創作者工具,可以理解為我們缺乏一個3D品類的「手機攝像頭」。在這樣的大眾工具出現之前,3D的創作成本和門檻過高,很難出現一個大眾內容平臺。所以所謂3D大模型,可以理解為創作3D內容的「手機攝像頭」

就像是昨晚做了一個夢,我醒來后想要把夢境創造出來,讓朋友來我的夢境里去玩、去體驗。現在聽起來還很天方夜譚,但當3D大模型達到V4、V5水平時,就有了這樣的機會。

當大眾級別的創作工具出現后,我們認為內容平臺纔會有機會誕生。那麼緊接着就會是3D內容,也可以説是虛擬內容的大爆發。

隨着更多人使用Tripo這樣大眾級別的創作工具,和3D內容平臺,自然就會有更多3D原生數據來訓練3D大模型,促進技術的進一步迭代。同樣的,技術也會反哺應用,進一步提升用户體驗,形成數據的閉環。

Tripo Web工具是我們的一大亮點,它通過會員訂閲和API接口為個人和企業提供服務。3D藝術家、遊戲建模師、獨立開發者等個人用户可以通過訂閲獲得強大的建模工具。對於企業客户,我們不僅提供API接口,還提供定製化的專業解決方案。

海外市場是我們重要的增長點。目前,我們在海外已經擁有數十萬開發者。

遊戲解決方案方面,我們與國內外眾多知名遊戲公司、遊戲編輯器和遊戲引擎建立了官方合作。我們的技術主要應用於遊戲前期概念設計階段,幫助團隊快速生成角色、場景、載具等3D資產,激發創意靈感。在遊戲製作過程中,我們的技術也能用於生成中遠景美術資產,還可以提供中模幫助主美與外包團隊進行高效溝通。

除了提供降本增效的服務,我們也在探索將3D生成技術融入遊戲玩法。

我們的開發者社區創造了TripoGo這款遊戲,玩家通過生成3D模型進行對戰,勝利者可以獲取對方的prompt進行進化生成。這種玩法類似於小時候玩的數碼暴龍機,但3D生成技術賦予了它全新的樂趣。TripoGo通過社交媒體傳播,一周內就吸引了超過10萬海外用户。

我們還與小型遊戲開發團隊和工作室合作,嘗試開發各種AI遊戲。

此外,我們還舉辦了全球首屆AI 3D渲染大賽Behind the Scenes。我自己也參與了比賽,雖然我完全不會建模和動畫,但藉助Tripo的AI生成能力,我只用了半天時間就製作出了參賽作品,還獲得了入圍獎。

這場比賽共收到兩三百份作品,全部都是使用Tripo AI生成的。優秀作品的特點是,在給定固定機位和場景的前提下,利用Tripo生成模型和動畫。這充分展示了AI技術如何幫助虛擬內容創作者,即使零基礎也能高效地製作出令人驚艷的作品。

此外,一些教育或小遊戲開發者也在利用Tripo的能力開發生成式決策系統。XR也是一個重要的應用場景,Tripo目前已上架Vision Pro應用商店。

3D生成技術對於3D打印行業同樣意義重大。由於會建模的用户量很小,3D打印(尤其是家用3D打印)的發展一直受到限制。但隨着3D生成技術的進步,即使不會建模,人們也可以通過文字或圖片生成所需的模型,並將其打印出來。

我自己就嘗試過將照片上傳到Tripo,生成卡通形象,然后通過3D打印製作成我自己的定製化玩具手辦。

家俱、鞋服、燈具、首飾等行業也可以利用3D生成技術進行設計和模擬。針對每個場景,我們都提供專門的定製化解決方案。例如,燈具模型需要中空,預留放置燈泡的空間,並能模擬點亮效果。

目前,VAST在海內外都享有良好聲譽,並在SIGGRAPH、CVPR等頂級會議上發表了多篇論文。Tripo也入選了A16Z的AIGC產業地圖。最后是我們公司的Slogan——為世界增文明,為人類造幸福。

先有「手機攝像頭」纔會有「抖音」

Q:大家談到大模型產品時,常會提到ROI(投資回報率)。VAST在這方面是怎麼看的?

VAST宋亞宸:3D生成的ROI可能會超出大家的預期。視頻、圖像或文字生成都面臨推理成本高的問題,但3D生成成本相對較低,因此我們的產品在銷售時ROI更容易實現。

例如,我們與Stability合作開發的開源3D大模型TripoSR,在CPU上只需0.5秒就能生成一個3D模型,算力成本很低。對我們來説,更大的挑戰在於數據而非算力。

Q:視覺生成模型通常按技術難度分為圖像、視頻、3D三個階段。您怎麼看這種劃分?

VAST宋亞宸:我認為3D生成的技術成熟度並不比視頻生成差,歡迎大家親自體驗tripo3d.ai。視頻生成本身還存在3D一致性等問題。

Luma原本專注於3D生成技術,曾是我們最大的競爭對手,現在轉向視頻,反而在視頻生成賽道取得很大優勢。

我觀察到,文字、圖片、聲音、視頻等與3D生成有本質區別。前者早已有低成本、低門檻的製作方式,AI只是眾多選項之一。而3D內容過去是大眾無法制作的,3D生成技術拓展了人類能力的邊界,實現了從0到1的突破。

在Sketchfab等模型網站上,3D模型平均價格在40美元左右,質量高一些的模型甚至價格高達幾百美元,這説明3D生成有很大的商業潛力。

而且,3D內容的消費市場已經成熟。全球最賺錢的遊戲大多是3D的,如原神、王者榮耀、黑神話悟空等。早在2012年,3D和2.5D手遊就佔了87%的比例。2024年的今天,3D在遊戲領域已是一個巨大的市場。

隨着3D大模型降低了創作3D內容的門檻,未來每個人都可以創作3D內容。大家説Vision Pro、XR眼鏡現在買回來也吃灰,我認為不是硬件的問題,而是缺乏好的內容。像小時候在MP3上看幾百萬字的小説,幾百萬字的斗羅大陸、鬥破蒼穹都可以用MP3看——只要有好的內容,多差的硬件也一定會有人來使用。

你可以用MP3來看500萬字的小説,但你説Vision Pro不能支持你去玩一段時間,核心的點是在於沒有好的內容,用户的創作門檻和成本太高了。如果有哪一天創造一個3D內容,成本幾乎為0而且不需要任何專業技能,那大眾都會去創作3D內容,用3D去交流、交互、表達、分享、創作、創造、實現等等。

Q:那您覺得,您剛剛描述的這樣一個世界,什麼時候可以到來呢?就像這樣每個人都可以在3D世界中創作?

VAST宋亞宸:我們認為大眾級創作工具的成熟是第一步,就像手機攝像頭是抖音出現的前提。我們正在研發類似手機攝像頭的3D大模型,預計今年年底能達到不錯的效果。

一開始我們迭代模型,很多人評論這個佈線和PBR等等,這其實不是最關鍵的。關鍵的是普羅大眾第一次可以去這樣創作3D模型或者3D內容,這件事情本身就是跨時代的。

今年年底,我們的大模型將達到3D建模初學者水平;明年,我們認為它將超越有3年工作經驗的建模師,達到至少Midjourney V5或V6的水平。

但是我們也得承認,不是手機攝像頭誕生了,就一定會出現抖音,也不是説做手機攝像頭的廠商就能做出抖音這樣的內容平臺。所以我們在説不是一定有了大眾級別的創作工具,就一定會誕生內容平臺。

在沒有手機攝像頭之前,就已經有大量公司在嘗試做內容平臺了,甚至Facebook都改名為Meta,説要實現元宇宙,也就是3D內容平臺。為什麼大家那個時候説,這些人説做元宇宙是騙子嗎?其實不是,他們只是卡在了沒有攝像頭。

我們既在做大眾級創作工具,又在3D大模型技術上領先,因此有足夠的時間窗口和技術優勢去做內容平臺。無論是積累的內容創作者社區、海外開發者生態,還是3D大模型技術和創作者們創作的3D內容,我們在打造「3D抖音」方面都有一定的先發優勢。

創業公司的高壁壘,在於初心

Q:您把3D內容平臺比作3D抖音,很有意思。您提到有足夠的時間窗口,但通常大家認為初創公司做通用大模型很難,在3D生成領域是不是也有類似挑戰?目前市場和時間窗口情況如何?

VAST宋亞宸:3D生成賽道非常獨特。舉幾個例子大家就明白了。首先,語言、圖片、音樂、聲音、視頻等多模態領域,基本都被海外公司領先,我們處於追趕狀態。但3D生成不同,我們的水平是全球頂尖的。

為什麼會有這樣的差異?關鍵在於3D生成核心是AI和圖形學的結合,才能誕生可擴展的3D大模型。3D大模型作為一個新興領域,人才稀缺。當頂尖人才聚集在一起,就會形成人才黑洞,因為最好的人都在同一個團隊,都想做同一件事。相比之下,大廠砸錢挖人,但挖來的人未必是最好的。

其次,3D生成所需的訓練算力與語言模型不同。語言模型可能需要越多算力越好,因此需要大量融資。但3D生成不是這樣,算力並非越多越好。即使有數十萬張卡,可以做很多實驗,但不代表算法就能領先。

其三,我認為我們這樣的AI 2.0公司不應該被小覷。AI 2.0公司非常專注,而大廠如英偉達、Meta、騰訊等,投入到這件事的人力、財力、算力都不如我們。因為我們只做這一件事,而他們要做很多事,他們之前可能更擅長發論文、做研究。但現在,我們的研究已經比他們做得更好了。

此外,我們在3D生成這個垂直賽道的資源其實比大廠更多。舉個例子,英偉達很早就説要在LATTE 3D模型上打造「皮克斯」,瘋狂放demo,把我們嚇得夠嗆。但結果出來可能就是沒人用,效果也很一般,與宣傳相差甚遠。這讓我們對大廠或所謂的競爭對手祛魅了。

最近Meta出了新版本的3D Gen,我們也發現其實即使是Meta出了報告,我們也在其中有非常不錯的表現。

當大家提起3D就想到VAST,或者説AI 3D就想到Tripo時,我們在這件事上已經積累了足夠的基礎,這種勢能讓我們無所畏懼。

Q:看來3D生成的壁壘確實很高?

VAST宋亞宸:是的,可以説已經有很多壁壘了。我們在數據量上遠超同行,人才方面也形成了黑洞。市場調研顯示,我們的3D建模工具在用户量和口碑方面都遙遙領先其他產品。

但我覺得這些都不是本質。對於創業公司來説,最本質的壁壘是初心和使命,也就是到底想做什麼。

就像OpenAI推出Sora時,大家擔心他們要做世界模擬器,覺得這個概念很厲害,會影響我們的計劃。但我想的是,OpenAI的初心是什麼?我的初心又是什麼?如果初心一樣,那他們確實有錢、人才也多;然而關鍵是我們想做的事情不一樣。

別人也會把我們和一些大廠、教授創辦的公司比較。我就會説,第一,他們玩不玩遊戲?真的想不想進入虛擬世界?如果讓他們天天不上班,在家戴着XR眼鏡打遊戲,他們願不願意?如果待一個月就會瘋,那對不起,他們就和我們有本質的不同。

這也是為什麼我們看到這個賽道上的很多「競爭對手」都在做其他事情了,甚至連Luma也去做視頻了。

Q:您覺得現在VAST是處於從0到1的階段,還是1到100的階段?

VAST宋亞宸:我們肯定是剛剛起步。雖然產品和業務層面看起來比較順利,但公司成立才一年多,還很年輕。3D大模型也是一件很新的事情,市場非常大且長期,這肯定是剛剛開始的狀態。不過萬事開頭難,可能這第一步就佔了50%。在第一步里,我還是那句話,邁出步去的初心最重要。

Q:那什麼時候會是一個節點,比如完成了「1」?

VAST宋亞宸:我覺得這個「1」已經很快了。今年9、10月份,到今年年底,可能算是一個「1」和一個「2」,也就是我們的3D生成達到Midjourney V4甚至有望達到V5的水平。

這件事的關鍵不在於技術有什麼質的突破,或者某個公關活動讓大家關注這件事,而是説大模型生成的3D內容終於跨過了用户體驗的紅線。

我們內部從來不用技術術語講事情,我們只關注用户體驗和用户需求。當我們跨過了用户體驗的門檻時,自然就達到了Midjourney V4甚至V5的水平。我們一直不斷地與開發者、創作者、客户交流,瞭解他們到底想要什麼,還缺少什麼,這些反饋對於我們來説非常寶貴。

可能不是什麼技術本質的突破,比如幾何更平滑、佈線更平直。關鍵是知道用户想要什麼,知道什麼功能能滿足用户體驗。當我們達到這一水平時,就完成了「1」;當我們超越用户期望時,就達到了「2」。

關於365行AI落地方案

AI技術的落地應用不僅限於科技領域,它已經滲透到各行各業,成為推動產業升級的重要力量。因此,「365行AI落地方案」主題策劃應運而生,我們尋找各行各業中成功應用AI技術的案例和方案,分享給更多的產業內人士。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。