繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

12家創業公司+4家大廠全景圖:誰會成為中國版Sora?

2024-02-27 07:53

  文章來源:甲子光年

  作者 趙健 

  一年前,ChatGPT 的爆火很快在大語言模型領域催生了「百模大戰」。一年后,Sora 橫空出世再次驚艷世人,這一次是否會掀起新一輪的 AI 視頻領域的百模大戰?

  近期,DiT(Diffusion Transformer)論文的作者謝賽寧在朋友圈分享了他對 Sora 的看法,其中核心資源的排序是——人才*、數據第二、算力第三,其他都沒有什麼是不可替代的。

  國內有哪些團隊、哪些人才正在從事 AI 視頻行業?

  為此,‘甲子光年’基於公開資料與現有信息,整理了國內 12 家創業公司與 4 家大廠的 AI 視頻團隊信息。

  這些信息不僅給產品愛好者較為全面的 AI 生成視頻模型總結,也給更多的關注人工智能技術走向的 AI 從業者們一份技術與人才指南。

  (以下公司按公司名首字母排序,歡迎補充。)

  12家創業公司:產品、落地兩手抓

  HeyGen

  HeyGen 成立於 2020 年 11 月,核心創始成員有兩位,是上海同濟大學的校友。

  HeyGen 聯合創始人、CEO 徐卓(Joshua Xu),是卡內基梅隆大學計算機碩士。徐卓是早期 Snapchat 員工(2014 年 - 2020 年),關鍵工程負責人。在 Snapchat 的 6 年里,徐卓領導了多個關鍵工程領域,例如廣告平臺、推薦系統、機器學習平臺(Barista)和 AI 相機。

  HeyGen 聯合創始人、CPO(首席產品官)梁望(Wayne Liang),是卡內基梅隆大學人機交互碩士。梁望是前字節跳動美國設計主管,領導企業軟件和內部產品創新的設計;Smule 前設計總監,領導國際設計團隊設計數百萬日活產品,領導了視頻和直播等關鍵舉措,使 UGC 內容增長了 10 倍以上。

  HeyGen 聯合創始人、CEO 徐卓(左)與 HeyGen 聯合創始人、CPO 梁望(右)

  HeyGen 總部位於洛杉磯,成立三個月后便從紅杉中國和真格基金獲得了 200 萬至 300 萬美元的種子輪融資。2023年 11 月 29 日,HeyGen 宣佈獲得由 Conviction Partners 領投的 560 萬美元新一輪投資,估值達到 7500 萬美元。此時,HeyGen 只有 25 名員工。

  HeyGen 在 2022 年 9 月推出 AI 視頻創作工具,僅用 7 個月的時間實現了 100 萬美元的 ARR(年度經常性收入),然后又於 10 月份達到 1000 萬美元。如今,這一數字已經躍升至 1800 萬美元。

  官網:https://www.heygen.com/

  HiDream.ai(智象未來)

  HiDream.ai 成立於 2023 年 3 月,是一家專注於構建視覺多模態(文本、圖片、視頻、3D等)基礎模型及應用的生成式 AI 公司。

  HiDream.ai 創始人兼 CEO梅濤,是人工智能、計算機視覺和多媒體領域的全球知名學者,加拿大工程院外籍院士,IEEE/IAPR/CAAI Fellow,曾擔任京東集團副總裁和微軟研究院資深研究員。他發表的論文被引用超過三萬余次,先后榮獲 15 項*論文獎,擁有 70 多項專利,並主導研發了多款全球數百萬日活用户的商業產品。

  HiDream.ai創始人兼CEO梅濤

  HiDream.ai 團隊中,博士、碩士佔 90% 以上,核心團隊成員曾任職於微軟、百度、騰訊、華為、京東、字節跳動等全球 500 強公司的核心技術團隊。

  2023 年 4 月,HiDream.ai 核心技術成員組隊,完成由阿爾法公社、中喝大種子一號基金參與的種子輪融資;12月,HiDream.ai 完成由科大訊飛領投的天使輪融資。

  HiDream.ai 的產品 Pixeling(皮克象)V1.0 已經於 2023 年 8 月上線。

  官網:https://hidream.ai/#/

  Möbius 

  Möbius 是一款上線於 2024 年 1 月 4 日的 AI 視頻模型,團隊只有三個人:AI 算法工程師 LogicQ,軟件工程師 Peki(劉佩),財務 Zhao。

  1 月 14 日,Peki 在 Reddit 上發佈了 2 個帖子,衝上了 Reddit 熱搜。當時,Peki 發佈了一個特斯拉汽車視頻,比較了Möbius 和 Runway 的效果,結果被一個小哥罵的狗血淋頭,因為 Möbius 效果太好,以至於讓他認為視頻是惡意剪輯故意詆譭 Runway 的。

  Peki 告訴‘甲子光年’,Möbius 目前的模型缺陷主要有2個——畸變,當角色大幅度運動時容易產生畸變扭曲;角色一致性,需要所有時長中角色保持一致,也就是語義連貫。這些問題的核心是基礎模型,當基礎模型要達到一定的智能,真正對物理理解,問題就會解決。Peki 表示正在努力。

  儘管如此,Peki 自信地表示,如果與全球範圍內進行產品對比,Möbius 和 Sora 差距是一定是最小的。

  Möbius 上線之后,零廣告推入情況下,至今已為用户生成了數百萬的視頻,並獲取了可觀的收入。

  官網:https://mobius.any-vision.com/

  Morph studio

  Morph Studio 成立於 2022 年,專注於 text-to-video 生成技術與社區平臺,通過 SD+自研模型技術幫助用户實現短視頻快速生成,其視頻生成模型已經於去年8月上線 Discord。

  2023 年 5 月,Morph Studio 宣佈已完成數百萬美元種子輪融資,由百度風投單獨投資。

  Morph Studio 創始人徐懷哲為香港科技大學人工智能方向博士創業,師從倪明選教授和沈向洋教授,曾在微軟小冰參加AI音樂生成研發。Morph Studio 的兩位聯合創始人趙世豪、殷子欣都是香港科技大學人工智能博士。

  Morph Studio 創始人徐懷哲

  除了技術團隊外,Morph Studio 也加強了其產品團隊的實力,貓眼電影簽約製作人、上海國際電影節評委,前硅谷頭部 AIGC 公司核心成員海辛也於近期加入 Morph Studio。

  官網:https://www.morphstudio.com/

  Neverends

  NeverEnds 在 2023 年 12 月上線。

  ‘甲子光年’*獲悉,Neverends 的聯合創始人,為 Llama 中文社區聯合發起人曲東奇。曲東奇畢業於東南大學,德國亥姆霍茲研究中心訪問學者。曲東奇也是《Llama大模型實踐指南》一書的作者之一。

  官網:https://neverends.life/

  愛詩科技AIsphere

  愛詩科技成立於 2023 年 4 月,已經完成了數千萬元人民幣天使輪融資。

  愛詩科技創始人、CEO 王長虎深耕計算機視覺、人工智能領域 20 年,曾任字節跳動視覺技術負責人,參與了抖音和TikTok等產品從 0 到 1 的建設和發展,搭建了字節跳動視覺算法平臺和業務中臺,主導了字節跳動視覺大模型從0到1的建設。王長虎曾任微軟亞洲研究院主管研究員,發表國際論文百余篇,擁有專利數百項。

  愛詩科技創始人、CEO 王長虎

  愛詩科技團隊成員來自清華、北大、中科院等*學府,曾任職於字節、微軟亞洲研究院、快手、騰訊等頭部機構的核心技術團隊,擁有世界一流的計算機視覺算法攻堅能力和解決系統工程問題的經驗。

  愛詩科技的視頻生成工具 Pixverse,支持 4K 高清視頻生成,在運動準確性、一致性和豐富性等方面取得了進展。愛詩科技將在 2024 年 3 月發佈新版本的多模態視頻生成大模型。

  官網:https://aisphere.tech/

  李白人工智能實驗室(LibAILab )

  李白人工實驗室是杭州王道控股有限公司旗下的專注計算機視覺和生成式人工智能算法、產品研發的技術團隊,成立於 2018 年,由唐勇博士領導成立。

  唐勇畢業於美國賓夕法尼亞州立大學,在美國知名 500 強企業擔任技術學科專家,高級工程師等。其他成員均畢業於國內外知名高校,清華、北大、浙大、英國*理工和美國常青藤範圍等。

  李白人工智能實驗室創始人、CEO 唐勇

  李白人工智能實驗室在圖像生成方面已經有不少積累,推出的產品有神采PromeAI圖可麗 tukeli.net、cutout.pro 等國內外在線工具網站及多個App、小程序。其中 cutout.pro 項目海外月活超千萬用户,海外站更是躋身圖像編輯工具分類排名前十;神采 PromeAI 項目榮獲 AI 產品榜出海 20 強。

  去年 10 月 31 日-11 月 2 日,由李白人工智能實驗室團隊攜手阿里雲等團隊製作的李白數字展亮相雲棲大會。 

  近期,李白人工智能實驗室神采 PromeAI 也上線了圖生視頻功能。

  官網:https://www.ishencai.com/ 

  毛線球科技(6PenArt)

  6Pen 成立於 2022 年 4 月,產品正式上線於 7 月,從 AI 繪畫工具起步,逐步打造 AIGC 社區。

  6Pen 同時提供兩個模型:一個是基於 Disco Diffusion 的模型‘西瓜’,優點是圖片效果好,但速度非常慢,成本會非常高;另一個是小模型‘南瓜’,可以用更快的速度去生成圖片。據介紹,用户普遍做法是先採用‘南瓜’繪圖,如果畫作滿意,繼續使用參考圖的方式傳輸到‘西瓜’模型,也就是 Disco Diffusion上,再進行一次重新生成。

  自上線以來,6Pen 通過 10 余項產品功能創新,獲得純自發增長,4 個月積累了百萬優質註冊用户,付費率超過 5%,上線首月即開始盈利。6Pen 文字生成視頻模式也正在內測中。

  2023 年 6 月,6Pen 獲得奇績創壇的 A 輪融資。

  6Pen 是一個非常年輕的團隊。6Pen CEO 王登科出生於 1994 年,為 10 年內容創作者、連續創業者,曾獨立開發過被 App Store 推薦的 App,打造過創作者經濟社區‘麪包多’。前段時間爆紅網絡的「哄哄模擬器」,就是由他開發。

  6Pen CTO 邵萬博出生於 1995 年,曾在字節負責 IoT 雲平臺項目,實現字節教育硬件雲服務、AILab 機器人雲服務的從無到有,包括整體架構設計與核心功能開發。

  方軻為 Al 負責人,4年快手 AI 工作經驗,核心算法研發,曾獲得快手內部技術突破獎。

  官網:https://6pen.art/

  生數科技

  生數科技成立於 2023 年 3 月,由瑞萊智慧 RealAI、螞蟻集團和 BV 百度風投聯合孵化,聚焦於多模態生成式大模型與應用產品開發。前瑞萊智慧副總裁唐家渝出任 CEO

  生數科技CEO唐家渝

  生數科技由清華人工智能研究院副院長朱軍教授帶領,核心成員來自清華大學人工智能研究院,該團隊長期致力於貝葉斯機器學習的基礎理論和高效算法研究,是目前在擴散概率模型領域發表論文成果最多的國內團隊,並培養出了多名生成式 AI 領域重要的研究者。

  生數科技於 2023 年初開源了基於 Transformer 的多模態擴散大模型 UniDiffuser,實現基於一個底層模型完成文生圖、圖文聯合生成、圖文改寫等多種生成任務。生數科技也正從 0 到 1 打造着產業級的多模態深度生成式大模型,覆蓋文本、圖像、3D 模型、音視頻等多個模態。目前該大模型正在快速迭代中。

  2023 年 6 月,生數科技完成了近億元的天使輪融資。此輪融資由螞蟻集團領投,BV百度風投、卓源資本跟投,估值達 1 億美元;8 月,生數科技完成了數千萬元天使+輪融資,由錦秋基金*投資。

  在商業模式上,生數科技面向圖像創作、3D 資產創建等細分場景打造垂類應用,服務範圍覆蓋C、B 兩端。

  官網:http://shengshu-ai.com

  徐圖智能

  徐圖智能成立於 2023 年 6 月,由 IEEE Fellow、香港大學教授徐東成立。

  徐圖智能 CEO徐東

  徐東擔任徐圖智能 CEO,他於 2001 年和 2005 年在中國科學技術大學取得學士和博士學位,目前擔任香港大學計算機系教授。他曾在微軟亞洲研究院、香港中文大學和哥倫比亞大學從事研究工作,並在南洋理工大學和悉尼大學任教。

  徐東教授在計算機視覺、多媒體信號處理以及機器學習等領域做出了重要貢獻,在 IEEE Transactions 和國際*會議上發表了 150 余篇論文,其中兩篇論文分別獲得 T-MM 2014 *論文獎和 CVPR 2010 *學生論文獎。徐東教授是 IEEE 和 IAPR Fellow,於 2018 和 2021 年兩次入選科睿唯安(Clarivate Analytics)高被引學者,同時也擔任 ACM Computing Surveys(CSUR)資深副主編。

  藝映 AI

  藝映 AI 是由 MewXAI 團隊開發的AI視頻生成工具,可以由文本、圖像生成AI視頻。可以將文本描述轉換為視頻動畫,也可以上傳圖片將其變為動態視頻,適用於多種場景,如抖音短視頻、小説推文、AI 短片、AI 電影等製作。

  除了 AI 視頻生成工具‘藝映AI’之外,MewXAI 還包含了 AI 繪畫、AI 二維碼、AI 藝術字等多種 AIGC 創作工具。

  MewXAI 由美團資深前端工程師華益峰創立,華益峰是一位出生於 1995 年的年輕獨立開發者。除了 MewXAI 之外,華益峰還創立了木及簡歷、goenhance.ai(面向海外市場的視頻生成工具)等產品。

  官網:https://www.artink.art/

  右腦科技(RightBrain AI)

  右腦科技成立於 2022 年 9 月,是一家專注研發 AI 圖像和視頻生成的初創公司, 致力於將 AIGC 技術應用於圖像及視頻領域,賦能創作,讓想象成為具象。

  右腦科技有三位核心創始成員,均畢業於北京大學。

  梁建是北京大學計算機科學碩士,曾在微軟亞洲研究院任職,長期從事視覺生成研究,代表作女媧系列 NUWA、NUWA Infinity。

  右腦科技聯合創始人梁建

  史傑是北京大學智能系統碩士,曾在微軟亞洲研究院,女媧項目組從事 Diffusion 模型研究;曾任商湯研究員,負責擴散視頻生成模型研究。

  周呈華是北京大學軟件工程碩士,曾在微軟亞洲搜索技術中心(Search Technology Center Asia,STCA)、智源研究院從事視覺生成研究,參與智源悟道·文生圖模型、國畫模型研發。

  右腦科技已經完成了陸奇博士創立的奇績創壇的種子輪,以及光速中國等一線 VC 數千萬天使輪融資。

  產品層面,右腦科技先后推出了 AI 繪畫創作平臺 Vega AI,以及 AI 視頻創作平臺 Video Studio。

  官網:https://rightbrainai.cn/

  大廠:有錢有人,論文多於產品

  阿里:周靖人、薄列峰領銜

  在視頻生成領域,阿里巴巴通義實驗室開發了開源視頻生成模型和代碼系列 VGen,具備非常先進和完善的視頻生成系列能力,包含了如下內容:

  VideoComposer:具有高度靈活可控性的視頻合成

  I2VGen-XL: 通過視頻擴散模型進行高質量圖像到視頻的生成。

  HiGen:分層時空解耦技術用於文本生成視頻(T2V)

  TF-T2V:使用無文本視頻訓練的規模化文本到視頻模型的生成方法

  InstructionVideo:通過人類反饋,優化視頻擴散模型

  DreamVideo:用定製主題和動作可控視頻生成模型

  VideoLCM:基於潛在性一致模型(LCM)優化視頻模型生成速度

  2023 年 11 月,阿里發佈了關於 I2VGen-XL 的論文,署名作者有 9 位:Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan,Zhiwu Qing, Xiang Wang, Deli Zhao,以及阿里雲 CTO 周靖人。

  12 月,阿里巴巴智能計算研究院發佈了最新AI應用:Animate Anyone,只需一張人物照片,結合骨骼動畫,就能生成人體動畫視頻。通義千問風靡一時的「一鍵跳科目三」功能就是來自於此。

  Animate Anyone 的論文有 6 位作者:胡立、高鑫、張鵬、Ke Sun、張邦與薄列峰

  其中,*作者胡立,浙江大學碩士畢業后加入阿里達摩院,在 COCO、DAVIS 等大型知名 Benchmark 競賽上取得多項*,在 CVPR/ICCV/ECCV 等頂會上發表多篇論文。

  該項目的核心負責人薄列峰,是阿里巴巴集團 XR 實驗室負責人。

  阿里巴巴集團 XR 實驗室負責人薄列峰

  薄列峰博士畢業於西安電子科技大學,先后在芝加哥大學豐田研究院和華盛頓大學從事博士后研究,在國際頂會和期刊論文 80 余篇,論文被引用超 1.1 萬次。其中,他的博士學位論文曾獲得全國百篇優秀博士論文獎,RGB-D 物體識別論文榮獲機器人權威會議 ICRA *計算機視覺論文獎。

  薄列峰曾就職於亞馬遜西雅圖總部,任首席科學家,從事 Amazon Go 無人零售店的基礎算法研究和工程落地。2017年,薄列峰加入京東,后加入京東數字科技集團AI實驗室首席科學家,研究範圍覆蓋機器學習,深度學習,計算機視覺,自然語言處理,語音等多個領域。

  2022 年,薄列峰加入阿里巴巴達摩院,現在為通義實驗室 XR 實驗室負責人。

  百度:肖欣延領銜

  2024 年 1 月 19 日,百度推出了一款視頻生成模型 UniVG,其特點在於針對高自由度和低自由度兩種任務分別採用不同的生成方式,以更好地平衡兩者之間的關係。

  該模型論文有 5 位作者:Ludan RUAN、Lei TIAN、Chuanwei HUANG、Xu ZHANG、肖欣延。

  其中,肖欣延為百度文心一格總架構師。肖欣延長期從事自然語言處理相關研究和應用,已發表CCF A/B 類論文 30 余篇獲授權發明專利 50 余項並獲中國專利優秀獎1項,相關成果已在百度的搜索、推薦、百家號、小度、輸入法、百度雲等業務中得到廣泛應用。

  百度文心一格總架構師肖欣延

  騰訊:單瀛領銜

  騰訊近期推過兩個視頻生成模型項目,*個是在 2023 年 12 月,北京大學、騰訊 AILab 與香港科技大學三家聯合發佈一款視頻生成模型 AnimateZero。

  AnimateZero 是一種基於視頻擴散模型的零樣本圖像動畫生成器。研究人員提出了一種分步生成視頻的方法,將外觀和運動過程解耦,提高生成效率和可控性。通過零樣本修改,還能將 T2V 模型轉換為 I2V 模型,使其成為零樣本圖像動畫生成器。在應用方面,AnimateZero 介紹了通過文本控制動作、視頻編輯、幀插值、循環視頻生成和真實圖像動畫等多種應用場景。

  在該項目中,騰訊 AILab 有 4 位作者參與,分別為寸曉東、Yong Zhang、Xintao Wang 與單瀛

  單瀛,騰訊傑出科學家、ARC Lab & AILab CVC總監。單瀛博士曾擔任微軟雷德蒙研究院博士后研究員,SRI International 資深研究員和微軟科研主管,在國際*會議和刊物上發表 120 多篇論文,並擁有多項美國/國際專利。2018 年底單瀛加入騰訊公司內容和平臺事業羣(PCG),創立了ARC Lab 並擔任中心主任,同時兼任騰訊 AILab 視覺計算中心主任、QB 搜索技術負責人,致力於多模態內容生成、理解、學習中的算法研究和應用推廣。

  騰訊傑出科學家、ARC Lab & AILab CVC總監單瀛

  寸曉東,騰訊 AILab 視覺計算中心研究員,本科畢業於西安電子科技大學計算機系,碩士與博士畢業於澳門大學計算機與信息科學系,導師是潘治文教授。加入騰訊之前,寸曉東先后在阿里巴巴、海康威視研究院、華為諾亞方舟實驗室工作。目前,寸曉東正在使用與 AIGC 相關的技術,研究設計新穎的圖像/視頻生成、翻譯和編輯應用(特別是在動漫遊戲領域)。

  Yong Zhang,騰訊 AILab 高級研究員,研究方向是AIGC。在加入騰訊之前,Yong Zhang 於 2018 年在中國科學技術院自動化研究所(CASIA)獲得了博士學位,導師是胡包鋼教授和董未名教授,他們都是國家模式識別實驗室(NLPR)的成員。在加入 CASIA 之前,Yong Zhang 於 2012 年在湖南大學獲得了自動化專業的工學學士學位。從 2015 年 9 月到 2017 年 9 月,Yong Zhang 在倫斯勒理工學院(RPI)的智能系統實驗室(ISL)擔任聯合博士生,導師是 Qiang Ji 教授。

  Xintao Wang,目前是騰訊 ARC Lab 和騰訊 AILab 的高級研究員,領導視覺內容生成(AIGC)方面的工作。 此前,Xintao Wang 獲得了香港中文大學多媒體實驗室(MMLab)博士學位, 導師為 Chen Change Loy 教授和湯曉鷗教授。早些時候,Xintao Wang 獲得了浙江大學的學士學位 。

  騰訊近期推出的第二個視頻生成項目,是在 2024 年 1 月推出的 VideoCrafter2。VideoCrafter2 是一個視頻處理工具,致力於提高視頻的視覺質量、動態效果以及概念組合。通過獨特的算法和先進的技術,VideoCrafter2 能夠生成精美影片。

  VideoCrafter2 參與成員有7位:Haoxin Chen、Yong Zhang、寸曉東、Menghan Xia, Xintao Wang、Chao Weng、單瀛,大部分成員也參與了上述 AnimateZero 項目。

  Haoxin Chen目前是騰訊的研究員,主要研究文本到視頻的生成。在此之前,Haoxin Chen 畢業於華南理工大學,獲得學士和碩士學位。

  Menghan Xia, 騰訊AILab 視覺計算中心的一名研究員,目前專注於基礎生成模型(AIGC)、多模態學習和麪部運動合成。Menghan Xia 於 2021 年在香港中文大學(CUHK)獲得了計算機科學與工程博士學位,導師是黃田津教授;於 2014 年獲得了武漢大學攝影測量與遙感專業的工學學士學位,以及 2017 年獲得了模式識別與智能系統專業的工學碩士學位,兩位導師都是姚劍教授。在攻讀博士學位期間,Menghan Xia自 2019 年 3 月起與 Adobe Research進行了為期一年的合作,並在 2021 年夏天在微軟亞洲研究院(MSRA)進行了研究實習。

  字節跳動:馮佳時、李航領銜

  字節跳動有多個 AI 視頻研究團隊,其中一個在新加坡。

  2023 年 12 月,新加坡國立大學的 Show Lab 聯合字節跳動發佈了一款視頻模型 MagicAnimate(https://showlab.github.io/magicanimate/)——一種基於擴散模型的人體圖像動畫框架,旨在增強時間一致性、忠實地保留參考圖像並提高動畫保真度。

  字節跳動有 5 名研究人員參與。其中,馮佳時曾為新加坡國立大學電子與計算機工程系的助理教授,研究興趣包括計算機視覺和機器學習。馮佳時教授目前已經加入 TikTok 擔任研究科學家,正在組建一個新的基礎研究團隊。

  字節跳動研究科學家馮佳時

  其他成員包括:

  Jianfeng Zhang,字節跳動研究科學家,致力於3D生成模型和數字人生成/動畫方面的工作。Jianfeng Zhang本科畢業於武漢大學,博士畢業於新加坡國立大學。Jianfeng Zhang 曾在 Meta Reality 實驗室、TikTok 和 Sea AI 實驗室實習。

  Jun Hao Liew,畢業於新加坡國立大學,曾在Adobe 計算機視覺研究院實習,現在為字節跳計算機視覺科學家。

  嚴漢書,字節跳動新加坡的一名研究科學家,團隊專注於開發高效且可控的視頻/圖像生成模型,並將它們應用於創意編輯任務。嚴漢書在新加坡國立大學博士畢業,研究興趣在於機器學習和計算機視覺,目標是探索能夠解決工程和科學領域中具有挑戰性問題的原則性機器學習算法。

  Chenxu Zhang,字節跳動 Intelligent Creation Lab 的一名研究科學家,本科畢業於北京航空航天大學軟件工程專業,碩士畢業於計算機,博士畢業於德克薩斯大學達拉斯分校計算機。Chenxu Zhang 的研究興趣包括計算機圖形學、計算機視覺和人工智能,重點關注會説話的面部生成、會話手勢合成、帶有人類運動的去模糊NeRF、文本/圖像到3D,以及有情感會説話的數字人。

  2024 年 1 月,字節跳動新加坡團隊再次發佈新的模型,名為 MagicVideo-V2(https://magicvideov2.github.io/),將文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和幀插值模塊集成到端到端視頻生成管道中。受益於這些架構設計,MagicVideo-V2 可以生成具有出色保真度和平滑度的美觀、高分辨率視頻。通過大規模用户評估,它表現出了優於 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等*文本轉視頻系統的性能。

  該論文共有 12 位作者,其中就包括上一篇論文的作者Jun Hao Liew、嚴漢書與馮佳時。MagicVideo-V2 的*作者為王偉民

  王偉民本科畢業於新加坡南洋理工大學,碩士畢業於新加坡國立大學,畢業后先后在新加坡房地產交易所、醫藥公司MSD、印度尼西亞的互聯網科技公司 GO-JEK 做數據相關工作,在亞馬遜做機器學習研究科學家,並於 2020 年加入字節跳動,是字節跳動視頻生成模型的負責人。

  字節跳動視頻生成模型負責人王偉民

  2022 年 4 月,王偉民參加了新加坡國家研究基金會下屬人工智能研究計劃‘AI Singapore’發起的「可信任媒體挑戰」 ,在為期五個月的挑戰中擊敗了來自世界各地的469個團隊獲得了*名,以開發用於檢測深度偽造或數字修改視頻剪輯的* AI 模型。

  其他團隊成員還包括:

  Zhijie Lin,畢業於浙江大學,現在為字節跳動研究員;

  陳碩, TikTok 新加坡的一名研究科學家,本科就讀於南京郵電大學物聯網學院;碩士就讀於清華大學電子工程系,導師是廖慶敏教授和周飛博士;博士就讀於阿姆斯特丹大學,導師是Cees Snoek教授和Pascal Mettes博士。陳碩曾作為訪問學生在深圳先進技術研究院多媒體研究中心學習,導師是喬宇教授。

  Chetwin Low,曾在新加坡國立大學做學生導師與本科研究助理,目前在TikTok做計算機視覺研究實習生。

  Tuyen Hoang,畢業於新加坡南洋理工大學,現在為字節跳動算法工程師。

  Jie Wu,字節跳動 Intelligent Creation Lab 的一名計算機視覺工程師,本科與碩士畢業於汕頭大學,曾在百度計算機視覺視覺技術部(VIS)實習,師從人機物智能融合實驗室的李冠彬教授和林倞教授。

  Daquan Zhou,新加坡國立大學畢業生。

  2024 年 2 月,春節假期之前,字節跳動研究院又推出了一款新的 AI視頻生成產品Boximator(https://boximator.github.io/#Demo)可以通過文本控制生成視頻中人物或物體的動作。Boximator 是基於 MagicVideo-V2 模型發佈的一款視頻模型產品 Demo,將會在未來2~3個月內正式推出。

  Boximator 論文共有 7 位作者,分別為Jiawei Wang*、Yuchen Zhang*、Jiaxin Zou、Yan Zeng、Guoqiang Wei、Liping Yuan 與 Hang Li。最后一位作者為李航,字節跳動研究院負責人。

  字節跳動研究院負責人李航

  李航是北京大學、南京大學客座教授, IEEE Fellow、ACM 傑出科學家、CCF 高級會員,本科就讀於日本京都大學電氣工程系,1998年在日本東京大學獲得計算機科學博士學位。

  1990 年至 2001 年,李航曾在日本 NEC 公司中央研究所擔任研究員,期間從事了 NEC 文本數據挖掘產品的開發。2001 年至 2012 年,李航就職於微軟亞洲研究院,任研究員、主任研究員、高級研究員。2012 年至 2017 年,李航在華為諾亞方舟實驗室任首席科學家、實驗室主任,2017年離職加入字節跳動。

  2019年,李航作為*華人當選 ACL Fellow,當選理由為「他對信息檢索,特別是排序學習做出了基礎性貢獻,在深度學習和對話生成方面做出了突出貢獻,並且促進了中國自然語言處理(NLP)的發展和商業化。」

  除了上述三個項目,字節跳動還在北美籌建團隊。據‘甲子光年’*獲悉,英偉達高級科學家、VideoPoet項目負責人蔣路,已經加入 TikTok 北美團隊。

責任編輯:江鈺涵

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。