繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

不到60秒就能生成3D「手辦」,Meta發力3D生成,ChatGPT時刻要來了嗎?

2024-07-04 14:27

機器之心報道

編輯:陳萍、張倩

3D 生成,一直在等待它的「ChatGPT時刻」。

一直以來,創作 3D 內容是設計和開發視頻遊戲、增強現實、虛擬現實以及影視特效中最重要的部分。

然而,3D 生成具有獨特而艱鉅的挑戰,這是圖像和視頻等其他生成內容所不具備的。

首先,3D 內容在藝術質量、生成速度、3D 網格結構和拓撲質量、UV 貼圖結構以及紋理清晰度和分辨率方面具有嚴格的標準;

其次,與其他研究相比,可用的數據量少。雖然該領域有數十億張圖像和視頻可供學習,但可用於訓練的 3D 內容數量要少三到四個數量級。因此,現階段的3D 生成還必須從非 3D 的圖像和視頻中學習,而且需要從部分 2D 觀察中推斷出 3D 信息;

傳統方法生成的3D 資源通常難以實現逼真的照明和材質屬性,從而限制了它們在專業工作流程中的實用性;

3D生成是一個非常耗費算力的過程,主要因為它涉及到複雜的計算和大量的數據處理,如實時渲染、細節處理。並且由於算力不夠,可能會導致生成速度非常慢。

在生成式AI爆發的當下,很多研究者開始嘗試針對以上問題提出解決方案。

剛剛,Meta發佈了最新系統Meta 3D Gen (3DGen),其用不到一分鍾的時間,就能直接從文本生成3D資產。

論文地址:https://ai.meta.com/research/publications/meta-3d-gen/?continueFlag=24428397aaeb0cc6751570d48a532d36

3DGen支持基於物理的渲染 (PBR),這是在實際應用中重新照明 3D 資產所必需的。此外,3DGen 還支持使用用户提供的額外文本輸入對先前生成的(或藝術家創建的)3D 形狀進行重新紋理化。

比如下面所展示的,藉助3DGen,研究者渲染出了一隻金屬色的小狗:

未來感滿滿的機器人

3DGen還能對生成的對象紋理進行進一步編輯和定製,同樣的方法也可以應用於藝術家創建的3D網格紋理而不需要修改。如下所示,3DGen將藝術家創建的3D資產渲染成彩色的蝴蝶。

蝴蝶「變身」為用粉色和綠色紗線編織的蝴蝶玩具。

通過展示可以看出,即使是複雜的文本提示,3DGen也能很好地遵循指令,生成的3D形狀和紋理質量也比較好。

以下是論文中的具體信息。

Meta 3D Gen基本原理

Meta 3D Gen 是一種兩階段方法,包括兩個關鍵組件:用於創建 3D 網格的 Meta 3D AssetGen 和用於生成紋理的 Meta 3D TextureGen。

這些技術協同工作,可生成具有高分辨率紋理和PBR材質的 3D 資產。Meta表示,該流程的速度是現有解決方案的 3 到 10 倍。

第一階段為3D 資產生成階段。在這一階段,根據用户提供的文本提示,Meta 3D AssetGen(簡稱 AssetGen)創建初始 3D 資產。此步驟生成具有紋理和 PBR 材質貼圖的 3D 網格。推理時間約為 30 秒。

接下來是第二階段。給定第一階段生成的 3D 資產和用於生成的初始文本提示,第二階段將基於該資產和提示生成更高質量的紋理和 PBR 貼圖。第二階段用到了文本到紋理生成器 Meta 3D TextureGen(簡稱為 TextureGen)。推理時間約為 20 秒。

此外,給定一個無紋理的 3D 網格和描述其所需外觀的提示,第二階段還可用於從頭開始為該 3D 資產生成紋理(網格可以是先前生成的,也可以是藝術家創建的)。推理時間約為 20 秒。

下圖為第一階段和第二階段可視化對比。后者往往具有更高的視覺美感,看起來更逼真,細節頻率更高。

我們不難發現,3DGen 以 AssetGen 和 TextureGen 為基礎,將3D 對象的三個關鍵信息進行了很好的互補:視圖空間(對象的圖像)、體積空間(3D 形狀和外觀)和 UV 空間(紋理)。

此過程從 AssetGen 開始,通過使用一個多視角和多通道的文本到圖像生成器,生成關於物體的幾個相對一致的視圖。接着,AssetGen中的一個重建網絡會在體積空間中提取出3D對象的第一個版本。此過程接着進行網格提取,建立對象的3D形狀和其紋理的初步版本,這一系列步驟構成了從文本描述到3D模型的轉換過程。最后,TextureGen 組件利用視圖空間和 UV 空間生成的組合來重新生成紋理,提高紋理質量和分辨率,同時保持對初始提示的保真度。

實驗對比

運行時間和功能上的對比

論文將3DGen的性能與業界領先的文本到3D生成模型進行了比較,包括 CSM、Tripo3D、Rodin Gen-1 V0.5、Meshy v3等。

在時間上,stage1最快的是Tripo3D(經過筆者實測,Tripo3D線上版本目前stage1為10秒,stage2是2分鍾);stage2最快的是Meta 3D Gen,Tripo3D緊隨其后,Rodin Gen-1 V0.5排名第三,用了2-30分鍾完成。

在功能上,除了Rodin支持重拓撲之外,筆者實測Tripo3D也支持retopology。

定量評測指標

表2主要表現了不同模型遵循 prompt的結果。主要關注text-to-3D,實驗中用了來自2023 Google DreamFusion論文中的404個prompt,細分為物體(156)、角色(106) ,組合角色物體 (141),難度由低到高。定量對比部分全部是user study(用户偏好)。

結果表明:在text-to-3D比較重要的prompt fidelity指標上:

綜合排序為:Meta 3D Gen > Third-party T23D generator > Tripo3D > Meshy v3 > CSM Cube 2.0 > Rodin Gen-1 。其中前三名差距很小(3個點的差距,404個prompt中的12個)。CSM和Rodin相較其他方法有明顯差異,Rodin和3DGen相比,兩者相差 21.8個點。

分項評測方面,最簡單的objects中表現最好的是Meshy v3。角色類和複雜組合概念的表現代表了技術水準,也是3D產業應用中最重要的部分,Meta在複雜組合上排名第一,Tripo3D則是難度越高表現越強,僅次於Meta,和第一名差距很小。

表3比較了Meta和其他方法的A/B win rate和loss rate結果,數字win rate越低代表所對比方法越強,loss rate越高代表所對比方法越強,可以得出:

Meshy v3紋理分最高、Rodin紋理分最低;

Rodin幾何分比較高;

在綜合性一致性、整體質量方面,Rodin表現不佳;

All users和專業用户打分標準可以看出略有不同,但排名趨勢是一樣的:對幾何和紋理的正確性給予了更多的權重;

上圖橫座標是前面提到的prompt複雜度,縱座標是Meta win rate,低於50%説明對比方法比Meta好,折線越低説明方法越好。圖中比較了多個維度,包括prompt還原度、綜合視覺質量、幾何視覺質量、紋理細節、紋理瑕疵等指標。

Meta在論文中談到越複雜的prompt,他們的方法優勢越明顯,這個其實和前面Table 2中Tripo3D的趨勢和優勢是一致的。可以推測如果這里加上Tripo3D,Tripo和Meta應該不分伯仲。

定性質量對比

在這篇論文中,Meta還給出了幾個模型的定性結果對比圖,我們可以從這些圖中看出一些差別。

從prompt遵循程度來看,3DGen表現優秀,比如對於第一行的羊駝雕塑,它可以把prompt中提到的logo文字寫上。但以第三行的case為例,CSM的語義理解較弱,Tripo則展現了其他模型都失敗的「被鍛造的錘子」,甚至還基於推理生成了3DGen沒有考慮到的炭火。

但綜合幾何細節和紋理細節來看,3DGen的紋理細節略顯粗糙,Meshy和Rodin的第一行幾乎沒什麼紋理,而Tripo3D的紋理結果則要好得多,幾何細節非常豐富,人、物也更保真,不像3DGen一樣有時候臉會垮掉。

圖7表現了同一場景下的比較結果,包括 Tripo3D 、Meshy v3 、以及 3DGen。綜合來看,Meshy方法生成的紋理瑕疵多一些、生成的幾何粗糙一些;放大來看,Tripo和3DGen效果不相上下,但Tripo生成結果更形象、靈動一些。

筆者用Tripo嘗試了測試集中的龍蛋效果

3D生成來到「ChatGPT時刻」前夜

3D生成賽道其實一直是資本市場的寵兒。A16Z接連對3D生成賽道出手,除了最近名聲大噪的Luma Labs之外,Meta論文中提到的CSM,Google系的Yellow,還有曾經爭議較大的Kaedim都是A16Z的被投明星企業。

在Meta論文中參與比較的工作中Meshy出自知名學者胡淵鳴的團隊,Tripo則出自之前和Stability AI發佈TripoSR的團隊VAST。

Meta此篇論文中引用了不少VAST團隊的論文,不僅包括TripoSR,也包括剛被ECCV收錄的UniDream、曾經爆火的Wonder3D、Triplane meets Gaussian splatting等等。

據筆者根據Tripo官方海外媒體信息,全球開發者已經基於TRIPO生成了近四百萬個3D模型,TripoSR上線一周就在Github上拿到了3K+的star量。基於這種人氣,Tripo社區也推出了全球第一個AI 3D全球渲染大賽。

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650924483&idx=2&sn=81fad5919205e7a835f28c9fdfcbf8b9&chksm=84e421bdb393a8abe3c8116093170bbc04ad3d9384101173a87132757a00403f28120282d553&token=1170670493&lang=zh_CN#rd

據筆者調研,不管是CG還是3D打印領域都有許多目前的落地探索,不管是全球最大的3D素材交易網站CG模型網定向邀請創作者測試,還是3D打印龍頭開始探索AI,都體現出比想象中更快的商業化落地速度。

VAST上線Anycubic的模型社區網站Makeronline和CG模型網

Keadim則選擇和初創團隊Nakkara一起探索3D打印業務:

總體來看,3D生成技術在學術和行業落地層面都不斷取得突破性進展,我們有理由相信,3D大模型會釋放更多潛力。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。