繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

計算機視覺華人史:權龍與他的學生們

2024-07-04 10:01

1

羣星閃耀時

1988 年的冬天,一輛火車從法國出發、開往盧森堡。

火車上有一行四人,來自法國南錫,他們精神煥發,興高采烈地討論着即將開始的旅程。從南錫到到盧森堡,他們將在盧森堡乘坐飛機,飛往美國佛羅里達參加第二屆國際計算機視覺大會 ICCV。

他們中,有*一位來自中國的東方面孔,內心尤為激動——這是他*次去美國,也是他*次參加國際上的*學術會議,有機會與來自世界各地的同行交流切磋。

這位意氣風發的青年,就是后來中國計算機視覺大師、香港科技大學計算機視覺實驗室的開拓者——權龍。

那一年,權龍 24 歲。

與權龍一同出發的,還有他的博士導師 Roger Mohr、兩位研究員 Karl Tombre 與 Gerald Masini。

深度學習浪潮興起后,華人科學家逐漸成為計算機視覺三大頂會(ICCV、CVPR、ECCV)的參會主力,發表了大量的科研成果,並摘得各大重要獎項。但在上世紀 80 年代,ICCV 大會現場的華人面孔寥寥無幾,直到 1988 年法國留學生權龍打破了局面。

1988 年,在法國國立洛林理工學院(INPL)、國家科學研究中心(CNRS)和國家信息與自動化研究所(INRIA)的共同實驗室攻讀計算機博士的中國學生權龍,在導師 Roger Mohr 的指導下,寫了一篇從幾何約束研究室內場景圖像匹配的論文。

論文被剛剛誕生的 ICCV 接收,成爲了實驗室的*篇視覺頂會論文,也標誌着華人學者在這個視覺會議上的首次亮相。

1987 年*屆 ICCV 在英國倫敦成立,權龍的導師 Roger Mohr 參加了這個里程碑的會議,從會議現場帶回來*一本 Proceeding 會議論文集。那時參會人員的「傳統」就是必須帶一本 Proceeding 回家去讀。權龍對這本「孤本」非常珍惜,細心閲讀,讀完后寫了兩篇文章,其中一篇在實驗室內部反饋很好,果不其然中了第二屆 ICCV。

論文地址:https://ieeexplore.ieee.org/document/590050

1988 年的美國之行,爲了讓大家不負此行,參加 ICCV 之余,Roger Mohr 還聯繫了各大高校,組織了一次全美知名實驗室的遊學之旅。權龍*次參會,就感受到了計算機視覺領域最前沿的學術研討氛圍。

權龍在 1985 年從中國赴法留學。

這個成長於山西太原的中國青年,從小時候在少年宮美術組開始就一直對圖像有着濃厚的興趣。1980 年,權龍考上了北方交通大學(現北京交通大學)通信專業畢業,成績優秀,在1984年畢業時考取教育部赴法留學研究生。

那時北方交大的信息科學研究所就聚集了一批熱愛圖像研究的學者,實驗室規模龐大,在模式識別、圖像理解乃至計算機圖形學上均有涉獵。

權龍在本科畢業設計時就跟隨時任所長袁保宗以及剛留法回國的周忠鈺,后者帶着權龍的本科畢業設計,給了權龍不少指導。

權龍出國留學也受到了他哥哥權全的影響。權全在 1978 年以優異成績考入清華大學,幾個月后就被教育部派遣到比利時本科留學,極可能是我國改革開放后山西太原出國留學*人。因此,權龍很早對出國留學有所瞭解,並考取了 1984 年教育部的派遣留學研究生,成為當年北方交大出國留學的 8 名學生之一。

在法國,權龍結識了更早留法的馬頌德(原中科院自動化研究所所長)、張正友(現騰訊首席科學家),三人並稱為「法國華人視覺三劍客」,而他們在冥冥之中早有淵源:

在北方交大的最后一年,權龍跟隨周忠鈺做研究,向對方請教留法經驗,后者研究圖形學,是 1979 年與馬頌德同批赴法的學生之一。

到 1987 年,權龍去法國的第二年,在法國國家信息與自動化研究所(INRIA)實習時又結識了同樣通過教育部派遣留學的張正友。張正友先在南錫大學計算機系讀碩,后又去法國巴黎第十一大學讀博。

當時歐洲的人工智能已起步,教育發達,誕生在法國的 Prolog 作為「古早」人工智能語言正引領人工智能以及第五代計算機的發展,權龍去法國的*志願也是研究人工智能。

最早在國內接觸「人工智能」這門課時,權龍有些失望,因為課程內容翻來覆去只涉及了一些搜索算法,並沒有太多他所期待的「智能」。而到了法國后,法國的研究中心涵蓋了語音、圖像、邏輯、專家系統等多個研究方向,同辦公室的兩個法國同學甚至已經開始研究為今天的神經網絡提供理論基礎的「連接主義」。

在前沿的研究環境中,權龍頓時燃起了研究的熱情。由於從小對圖像與空間感興趣,權龍決定研究圖像理解,由此踏入了計算機視覺的大門。

權龍的導師 Roger Mohr 是法國射影幾何與計算機視覺的研究先驅,從到法國的*天起,權龍就跟着 Roger Mohr 做研究,一直到 2002 年離開法國,整整 16 年都是一個團隊。1988 年權龍中 ICCV 論文,1989 年(在法國的第四年)就獲得了 INPL 博士學位。

1990 年,權龍加入法國國家研究中心,在 INRIA 擔任高級研究科學家。Roger Mohr 作為主要成員在 INRIA Grenoble(格勒諾布爾)開拓計算機視覺小組,權龍成為創始成員,也開始帶領自己的學生,並見證了歐洲三維視覺的黃金時代。

1982 年大衞·馬爾出版《視覺》一書,從 edge 研究視覺計算成為行業的主流。到 1990-2000 年,行業內出現變化,從 edge 轉向研究幾何問題,即「三維重建」。上世紀 90 年代,歐洲羣英薈萃,歐盟有一個大項目(「歐盟研發框架計劃」)聚集了一批研究不變量和幾何的人才(主要來自 INRIA 、英國牛津大學、比利時魯汶大學、瑞典*理工學院),成為三維視覺的研究聖地,而歐洲三維視覺的發源地又在法國。

權龍所在的 INRIA 一馬當先。1992 年,INRIA 的一位研究員 Olivier Faugeras 發表論文「What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig」,試圖用數學分析雙目能讓人感知到三維的原因。Oliver 提出「七點算法」,即:通過在非標定相機的兩張圖像中標出 7 個對應點,就可以計算出獲得三維的基礎矩陣。這個工作拉開了三維視覺研究的序幕。

三年后、1995 年,權龍發表的「六點算法」,又將三維重建向前推進了一大步。

在「六點算法」,權龍探索了三維重建的最小數據需求,得到「六個點、三幅圖像」的方法論,不僅為三維重建的基礎理論作出傑出貢獻,之后幾乎所有基於非標定相機的三維重建技術都受到了這一算法的啓發。權龍由此聲名大噪,成為三維重建的領軍人物。

論文地址:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=4fa70fb737a514afe8e902a9d8fd56f6cc3d6b60

在九十年代,計算機視覺領域最重要的成就之一是發展了一種三維視覺幾何技術,即從非標定的圖像(uncalibrated images)或運動結構(Structure from Motion)中進行三維重建。只要輸入圖像存在重疊,就能全自動地計算出所有相機的位置和方向,並重建場景的三維點。

圖像的三維重建是計算機視覺、機器人學、攝影測量學和計算機圖形學的基礎,而三維視覺幾何的整個體系建立在兩視圖、三視圖和N視圖幾何這三個基本要素之上。

兩視圖幾何問題,以基礎矩陣(fundamental matrix)為特徵,在 1992 年由 Olivier Faugeras 和 Richard Hartley 各自獨立解決;三視圖幾何問題則是由權龍在 1994 年發表的論文《Invariants of Six Points and Projective Reconstruction from Three Uncalibrated Images》中得以解決。

兩視圖幾何在使用七點算法啟動計算時是基礎性的,但它會導致對應關係歧義。與之相比,三視圖幾何在*性地表徵投影結構和消除重建及對應關係歧義方面,既是最小的也是最完整的。

權龍引入的「六點算法」,以封閉形式解決了三視圖幾何問題,最多提供三個代數解。由於三視圖之外沒有其他獨立的幾何關係,三視圖幾何和兩視圖幾何是多視圖幾何中唯二的基礎幾何,因此三視圖的六點算法和兩視圖的七點算法也是圖像三維重建中最基礎的兩個算法。

而由於 N 視圖幾何本質上是一個代數冗余系統,缺乏通用的代數解決方案,所以只能通過優化方法來解決。1992 年,在 Faugeras 和 Hartley 對兩視圖幾何的代數分析同時,權龍及其同事創新性地提出了一種優化方法,採用空間中的規範投影基,首次實現了多視圖的投影重建。

這篇《Relative Reconstruction from Multiple Uncalibrated Images》與 Faugeras 和 Hartley 同年在兩視圖幾何方面的里程碑式研究齊名,其基礎性貢獻在學術界受到了高度認可。

權龍在三視圖與 N 視圖這兩個關鍵領域的重要貢獻,使他成為三維計算機視覺發展的主要推動者之一。在那個時期,權龍的貢獻不僅限於此,還解決了其他視覺幾何領域的諸多問題。

「六點算法」也是權龍與一眾早期中國計算機視覺華人學者結緣的契機。

「六點算法」發表后,1995 年,權龍去美國波士頓參加 ICCV,在哈佛 David Mumford 實驗室結識了當時讀博的朱松純。

1996 年,權龍在學術休假 (sabatical year)時到卡內基梅隆大學拜訪 Takeo Kanade,結識了沈向洋。早期計算機視覺領域的華人很少,中國學者聯繫緊密,權龍與沈向洋的友誼也一直延續至今,乃至影響了下一代在港科大與 MSRA 的學子,這是后話。

從 1990 到 2000 年,三維視覺在歐洲的研究如火如荼。2001 年,Richard Hartley 和 Andrew Zisserman 出版多視幾何理論教材《Multiple View Geometry in Computer Vision》,標誌着三維視覺領域的基本理論框架確立。

這十年也是羣星閃耀的十年,歐洲視覺圈涌現了一批后來名聲如雷貫耳的學者人物,如 Oliver Faugeras、Richard Hartly、Andrew Zisserman、Luc Van Gool 等等,權龍作為其中少數的東方面孔,也獨樹一幟。

相比之下,三維重建在北美學術圈並不活躍,相關研究成果蕭條,唯有彼時在通用電氣公司研發中心的 Richard Hartley 發表了一系列非常有影響力的工作。實際上,Richard Hartley與牛津團隊聯繫密切,因為他在通用電氣的老闆 Joe Mundy 曾在牛津學術休假,並與其團隊合作過。

INRIA Grenoble 多次邀請 Richard Hartley 前往其實驗室,與權龍他們討論對三維重建的前沿探索,權龍也幫助Richard 在Grenoble 完成了他的著名八點算法。

直到 1999 年,David Lowe 提出著名的 SIFT 算法。

權龍后來告訴雷峰網,因為二人都在計算機視覺中從事感知分組的工作,他從讀博開始就讀過 David Lowe 的論文,直到現在還會偶爾翻閲 David Lowe 的文章,「David Lowe 寫的東西都很深刻,他的成功不是突如其來的。他的成果在很多地方都能直接應用,比如  SIFT,visual features(視覺特徵),是為幾何而生、為做三維重建定義的。」

在法國,權龍還培養了兩位得意門生:*個博士生 Peter Sturm,他在三維重建奇異性(reconstruction singularity)方面做出了貢獻,1998 年在權龍指導下完成的博士論文獲得了法國*個 SPECIF 獎(每年只頒給一篇法國計算機科學博士論文);另一個學生 Maxime Lhuillier,作爲準密集方法(Quasi-dense approach)的開創者,也獲得了國際模式識別大會(ICPR)的*學生獎。

與天才同行、求索三維視覺,充實了權龍的法蘭西歲月。

2

港科大視覺*人

2001 年,權龍作了一個重要的人生選擇:結束 16 年「法漂」,回到中國香港。

促使權龍作出這一決定的,是時任香港科技大學計算機與工程系(CSE)的系主任錢大康。

港科大 CSE 成立於 1991 年,錢大康作為*批教職人員在 1992 年加入。香港迴歸后,與大陸的聯繫加強,香港各高校開始招攬有大陸背景的科學家,香港科技大學(HKUST)新成立的計算機科學系也正積極招聘人員,在三維重建領域聲名鵲起的權龍也進入了香港高校的視野中。

與權龍幾乎是同時加入港科大計算機科學系的還有楊強,二人加入后,第二年另一位華人科學家倪明選擔任 CSE 的系主任。權龍后來向雷峰網回憶,港科大的校領導「都很放手」。

於是,剛到港科大的*年,權龍就帶着積累多年的前沿計算機視覺知識,建立了港科大*個計算機視覺實驗室「 VisGraph」 。「VisGraph」 取「視覺(Vision)」和「圖型學(Graphics)」兩個含義,實驗室坐落在九龍清水灣港科大教學樓的 4204 房間。

VisGraph 實驗室內部

在法國的 16 年,權龍教導出了 Peter Sturm 等三維視覺領域的青年佼佼者。回到港科大后,他幾乎相當於從零開始,只有 Maxime Lhuillier 跟他來香港。大約一年后,Maxime 將準密集方法推進到了那個時期*的 3D 重建算法。

香港迴歸后,爲了吸引內地學生來港深造就業,1998 年開始,香港各高校開始通過合作、委託內地 10 所高校代招內地生。

很快,權龍加入港科大的*年,就從北京大學招了兩名學生:危夷晨與曾鋼。

權龍回憶,當時北大向權龍推薦了一批優秀的學生,權龍都很欣賞,但因為科研經費不多,不敢多招,所以只拿了 2 個名額,便同年招來了危夷晨與曾鋼。

危夷晨原打算去美國,最后來到香港,算得上是*批「吃螃蟹的人」。

危夷晨曾進過實驗室實習,大概知道自己不喜歡數據庫方向、而是偏愛圖形學的課程。到港科大后,錢大康給了危夷晨一份導師名單,危夷晨一看,名單上的方向基本都是數據庫、計算理論、網絡等傳統學科,*與圖形相關的就是權龍的視覺組,於是就選了權龍,可謂「機緣巧合」。

權龍帶領團隊的風格是追求小而美,而非建一個規模特別大的組,所以權龍一年只招一個博士生。2001 年權龍招了危夷晨與曾鋼后,第三個學生就從 2003 年纔開始招,2003 年招了譚平,2004 年招了王井東,2005 年招了袁路,2006 年招了方天……

譚平與王井東是通過微軟亞洲研究院(MSRA)來到權龍組。前文提到權龍與沈向洋在 CMU 相識、后成為密友,權龍回港科大發展時,沈向洋正在北京 MSRA,譚平與王井東都是通過沈向洋的推薦成為博士生,港科大 VisGraph 實驗室與 MSRA 的羈絆也是由此展開。

譚平是湖南婁底漣源人,15 歲就考上了上海交通大學少年班,本科學的是數學,研究生后才轉去人工智能領域,在上海交大的模式識別所學習,導師為楊傑。后來模式識別所與圖像通訊所合併爲了「圖象處理與模式識別研究所」,楊傑擔任所長。

2001年,譚平在上交大聽了一場沈向洋的講座,徹底燃起對計算機視覺的熱情與對 MSRA 的向往,就報名去 MSRA 實習。

在 MSRA 實習的四個月里,譚平跟着沈向洋研究計算機視覺,初步建立了對三維視覺研究的基本認知。譚平記得,當時 MSRA 的研究條件和上海較大有很大落差:上網不方便,沒有數碼相機、要去圖像所排隊借,想查最新的 PAMI 論文、但圖書館只有老的雜誌,深感內地高校與海外的條件差距。

譚平覺得研究人工智能的*目標是與機器人應用結合,所以他覺得計算機視覺的能力要求不能只停留在二維圖像上,而是要有三維的感知能力才能實現機器人的移動、操作物體等,一直對三維視覺的研究很感興趣。譚平很早讀過權龍的六點算法論文,知道權龍曾留法、是當時全世界範圍內三維視覺方向研究成果最出色的幾個人之一。

王井東原與危夷晨、曾鋼同是 97 級本科,但由於在清華大學自動化系本科畢業后選擇留校讀研,師從導師張長水,所以 2004 年纔到香港,比危夷晨等人晚了兩、三年。

而比王井東晚一年來權龍組的袁路,也是與王井東幾乎同一時間在 MSRA 實習的清華學生。袁路對計算機視覺研究十分痴迷,經常會抱着相機睡覺,權龍常説「研究計算機視覺就應該學習袁路」。

方天也是沈向洋推薦和共同培養的博士生。方天的本科就讀於華南理工大學計算機系,是一名三維遊戲愛好者,覺得「很美、很藝術」。在 MSRA 網絡圖形組實習時,方天就已經開始研究三維圖形學,后來在沈向洋和王立峰的推薦下來了權龍組讀博。

由於「精準招生」,權龍組的學生人數基本維持到四、五個學生左右,團隊成員之間的關係十分緊密,又都是來自內地,所以常常聚在一起吃飯、討論學術研究。

那時與權龍學生同一個實驗室的還有傅紅波。傅紅波是危夷晨在北大的師弟,博士導師是權龍的同事戴秋蘭,但研究的方向是圖形學,因此與權龍組的合作也很多。傅紅波很有親和力,經常會在飯點走到 4204 的門口叫危夷晨、譚平等人去吃飯,氛圍很融洽。

除了博士生,權龍團隊還有一個格外出眾的、來自大陸的碩士生,叫肖健雄,后來圈內人稱「Professor X」、創立了自動駕駛明星公司 AutoX。

肖健雄是潮汕人,本科就讀於港科大計算機系,性格大膽主動,由於喜歡三維視覺,本科階段就自己跑去找權龍説想跟他學習三維視覺。因為肖健雄是本科生,一開始權龍沒太在意,就讓他去實驗室找一個師兄合作,肖健雄就找到了譚平、王井東,參與他們的項目,還是本科生時就發了*篇學術論文、而且中了 2007 ICCV oral。

ICCV 2007 在巴西里約熱內盧舉辦,權龍帶肖健雄去參會,出發當天,權龍遠遠就看到肖健雄提了一個橘紅色的手提箱走來,給權龍留下了深刻的印象。權龍問他為什麼選擇顏色這麼出衆的箱子,肖健雄回答說是因為這樣「easily recognizable(辨識度高)」。

肖健雄腦子聰明、反應也快。后來權龍競選 2011 年 ICCV 大會主席時,競爭激烈,權龍與澳大利亞的 Richard Hartley 是呼聲最高的人選之一,后面由於記票場面混亂,大會就在競選會議室開了兩個門、分別代表權龍與另一位競選者,投票者從哪個門出去、就表示選誰,肖健雄做了很多參會者的工作,使權龍以幾票之差險勝。

所以 2008 年肖健雄本科畢業后,權龍就把他招進了組里讀 Mphil。肖健雄的本科與碩士論文都是關於三維重建與街景分析,碩士時期的成果還影響過谷歌無人車的研究(谷歌團隊早期研究無人車是以谷歌街景為基礎)。

肖健雄申請去美國讀博時,權龍給他寫推薦信,原先想寫「He is a genius」(電影《美麗心靈》納什推薦信的典故),后來委婉點改成了「outstanding」。擁有出色履歷的肖健雄受到美國各大高校的哄搶,最后他選擇了麻省理工學院(MIT)。

3

從頭發到地球

2012 年后,計算機視覺的風尚從卷積神經網絡識別到視覺生成大模型,但 2012 年之前相當長的一段時間里,三維重建都是視覺研究的核心問題。此外,計算機視覺與圖形學兩個方向的交叉也很多,權龍領導 VisGraph 也不侷限在 CV 的圈子里。

與「唯論文數量」的實驗室風格不同,權龍從不要求學生追趕論文「死亡線」,也沒有規定學生必須發表多少篇論文才能畢業。他的指導風格隨和,給予學生極大的自由度,每個人都可以探索自己感興趣的方向,所以危夷晨、譚平等人都覺得,在 4204 實驗室很有安全感與歸屬感。

一羣優秀的學生聚在一起,彼此之間也很容易形成競相向上的拉力。譚平回憶,讀博時實驗室的師兄弟經常一起泡實驗室,權龍每天都會來實驗室與大家交流,權龍隨時來、學生隨時在。權龍會過問技術細節、與學生深入探討問題,治學嚴謹、熱情,常常感染實驗室的同學。

譚平記得,權龍在課上做過一個實驗,讓譚平拿着兩支鉛筆、筆尖與筆尖觸碰。這個過程中,如果譚平蒙上一隻眼睛,只有一隻眼睛校對,一開始筆尖與筆尖沒對齊,就會發現之后再怎麼對也對不上。權龍通過一個簡單的實驗,就讓學生體會到,人是靠雙目纔有深度、立體的感覺,才能使筆尖與筆尖碰上。

當時整個實驗室都被權龍點燃,對三維重建的研究熱情高漲。

三維視覺的發展大約經過五個階段:首先是理論階段,方法是根據單張圖片的光影變化將物體的三維形狀恢復出來(即「shape from shading」,開創學者是 Bruce Horn);其次是雙目或多目階段,通過多相機從不同角度拍攝構建三維形狀,代表有法國 INRIA,代表有 Richard Hartley、權龍等;接着是視覺 SLAM(指相機在運動時通過算法求出相機的三維姿態);最后是與圖形學交叉結合,以及挑戰動態場景(代表是 XR)。

權龍先前的代表作是六點算法,2000 年后三維重建領域出現了許多新的問題,如稀疏重建。稀疏重建是指從一組稀疏的三維點或特徵中恢復出場景的三維結構,一般會先去求解相機位置,然后得到一個表示場景中關鍵特徵點的稀疏點雲,其中視覺 SLAM 是一個關鍵解法。

簡單來説,視覺 SLAM 是一項用相機來收集數據點、並創建地圖的技術,現已被廣泛運用於無人機、掃地機器人以及蘋果的「當紅炸子雞」Vision Pro 中。但在千禧年初始,這個方向並不受重視,研究者也寥寥無幾,權龍團隊是全球最早研究這一方向的團隊之一。

作為最早吃螃蟹的人,彼時團隊投稿 Visual SLAM 的論文常常被拒,直到 2007 年以后纔開始有大量工作出現。譚平回憶,在自己進入實驗室的很長一段時間里,權龍與師兄弟們都是在痛苦地「屢敗屢戰」。

早期物體的三維建模往往是通過在 3D Max 或 CAD 軟件中手動拖拽完成,然而,現實世界的複雜性遠遠超出了這些軟件的直觀操作範圍。即使是一盆花,用 3D Max 進行三維建模也非常痛苦。相比之下,從圖像中提取三維信息則簡化了物體的建模過程,同時還能保持物體的細節。

所以權龍也很早帶領學生研究基於圖像的三維建模,后來還開拓了 Image-Based X Modeling(簡稱 IBM)系列。

2005 年,港科大視覺實驗室關於 IBM 的*個工作發表在計算機圖形學頂會 SIGGRAPH 上,建模對象是頭發。2006 年,權龍團隊又發表了圍繞植物的建模,2007 年、2008 年、2009 年實驗室的 IBM 工作也相繼中了 SIGGRAPH,建模對象也從頭發、植物升級到建築、街道與城市。

如今自動駕駛領域的高精地圖,智慧城市的房屋與道路建模等技術成熟,許多工作就是從當時權龍團隊的工作延續而來的。

危夷晨與曾鋼最早加入研究中,危夷晨主要研究頭發建模,后續也發表了數篇相關的文章,曾鋼的重點則是與植物有關的建模。

譚平參與的項目最多,歷經了從花、街道到整個城市複雜場景的三維建模。王井東擅長用圖、半監督等方法處理圖像分割問題,將在清華實驗室習得的機器學習經驗,遷移到以應用為重的項目中。而擅長寫程序的方天是一位攝影發燒友,常給文章提供具有「藝術家審美」的建議。

深度學習風潮來臨前,SIGGRAPH 是計算機圖形學的獨有的*會議,影響力極高,GPU就是誕生於圖形學。而權龍團隊的 IBM 系列均被 SIGGRAPH 接收,研究含金量可見一斑。

權龍對港科大視覺實驗室學生的一大影響是對事物的執著追求。方天向雷峰網評價,權龍是一個非常純粹的人,做研究會堅持一個方向。那時他們在港科大研究三維重建,雖然領域人跡罕至、論文屢遭碰壁,但權龍認為這個方向有價值,堅持探索,終成開路人。

譚平記得,讀博時他們去參會,權龍在法國早期的學生都已經很成功,是學術圈有名的人物。權龍的地位也很高,但為人卻很簡單,希望學生去抓住一個最根本的點,將複雜的事情簡單化,「有種大道至簡的感覺。」方天形容。

有時權龍與學生討論問題,會一開始提出 a 方案,實驗室的學生不相信,總覺得可以搞 b、c、d 等等 N 種方案,結果兜兜轉轉一圈,發現 a 方案就是最簡單的。「人生的許多事,無論是做生意、還是做科研,如果一個人的思想太複雜,就會充滿各種各樣的小技巧,變得十分疲憊。」

因為權龍,「簡單是*的複雜」不僅是一句印在蘋果*本產品宣傳手冊中的 Slogan,港科大視覺實驗室內各人對簡單、純粹也有內心深處的體會。

4

一根藤上幾朵花

重視產研結合是港科大視覺實驗室的傳統。得益於權龍與沈向洋、MSRA 的緊密聯繫,權龍的許多學生也在讀博時期就加入了 MSRA 實習,成為北京與香港兩地飛的「雙城住民」。

讀博時,危夷晨、曾鋼、譚平、袁路都在 MSRA 實習過,而且是在不同的組,每個人有一位 mentor「靠山」:危夷晨是圖形組的以色列老闆 Eyal Ofek,曾鋼是 Yasuyuki Matsushita,譚平是 Steve Lin,袁路是孫劍。

危夷晨被 SIGGRAPH 接收的頭發建模論文就是 VisGraph 與 MSRA 團隊合作的成果。

那時 MSRA 是大陸在 SIGGRAPH 的明星團隊,沈向洋帶着MSRA 橫掃 SIGGRAPH。之后,MSRA 圖形組每年都能中好幾篇SIGGRAPH,孫劍也是在那時候成長起來。從 2003 年到 2006 年,孫劍每年都發兩篇 SIGGRAPH。SIGGRAPH 的工作量很大,很講團隊合作,孫劍跟賈佳亞合作,也是在那時候與賈佳亞建立起了深厚的友誼。

2006 年博士畢業,危夷晨就直接加入了 MSRA 的視覺組。

危夷晨的代碼寫得不錯,自我要求很高,一個趣事是,博士快畢業時,權龍讓危夷晨整理出一份代碼交接給師弟們學習。那套代碼相當於 OpenCV 的外包渲染庫,后續實驗室的師弟們一直在用,后來權龍每次到 MSRA 都表揚危夷晨。

危夷晨在 MSRA 工作了 12 年,期間在物體檢測、識別與姿態估計方向的許多工作是微軟多個產品的基礎,包括 Xbox Kinect,Windows Hello、Bing、Office、Hololens、Microsoft Cognitive Service 以及微軟小冰等。其中,Xbox Kinect 一經推出就銷量破千萬,號稱史上最成功的消費級電子產品。

2014 年,危夷晨等人在 CVPR 發表的每秒 3000 幀人臉關鍵點檢測技術,也是*個能夠在 PC和手機上實時運行的全自由度手勢跟蹤系統,大幅提高了性能和精度,在業界影響巨大,啓發了該領域后續一系列的工作。

在 MSRA,危夷晨也思考清楚了自己的發展方向:他更願意做能落地的產品技術研發,而非單純的科研。后來,孫劍離開 MSRA 加入曠視,危夷晨也在孫劍的邀請下於2018年加入了曠視、擔任曠視上海研究院負責人。

譚平沒有在 MSRA 全職工作過,但也以實習生的身份在 MSRA 實習了七年,研究生三年加博士四年。MSRA 為實習生提供免費的雙人宿舍,宿舍在北航招待所一塊,包吃包住。讀博時,譚平每年基本都是幾個月在北京、幾個月在香港,因此自己調侃為「千年老 intern」。

譚平評價,MSRA 的實習是改變命運的經歷,「當時和很優秀的研究人員一起合作,大家志同道合,合作寫論文,一點都不覺得苦。*次投 SIGGRAPH 時,截稿的最后一個星期我乾脆就睡在桌子底下,完全不想回宿舍,就覺得還差一點點。」

王井東與危夷晨的經歷相似,2007 年博士畢業后加入 MSRA 全職,一共在 MSRA 度過了 14 年后才離開。王井東在微軟的日子大體可劃分爲兩個七年:

在*個七年中,王井東致力於計算機視覺技術在多媒體搜索中的應用。2007年,面對必應圖像搜索的挑戰,剛博士畢業的他被派去解決多媒體搜索中的圖像檢索難題,和團隊一起開發了基於草圖的圖像檢索技術,顯著提升了搜索效率。

圍繞圖像搜索,王井東從應用轉向基礎關鍵算法研究,深入研究了近似最近鄰算法(ANN),並設計了一種基於近鄰圖的 ANN 搜索算法,該算法在2014年被應用於必應的圖像搜索和廣告中,成為商業產品中的一個創新應用。

進入第二個七年,王井東的研究重點轉向了深度學習。早在 2005 年,王井東在香港讀博時便參與過卷積神經網絡(CNN)車牌識別項目。而在微軟,王井東開始探索深度學習算法在新應用中的潛力,並關注視覺網絡架構的設計。

2015 年,他提出保持高分辨率表示的想法,並在 2018 年領導團隊設計了 HRNet,該架構在 2019 年的 CVPR 上發佈,迅速獲得了學術界和工業界的廣泛關注。HRNet 的設計突破了傳統的分類架構,通過高中低分辨率的不斷交互融合,保持了高分辨率的特徵表示,適用於多種視覺任務。

直到 2021 年,王井東才離開微軟,加入百度任計算機視覺首席科學家,為百度多條業務線提供視覺技術支持。

袁路是在 2009 年博士畢業后進入 MSRA 視覺計算組工作,至今仍在微軟供職,現在是微軟雲與 AI 認知服務研究部門的首席研究經理,參與研究多模態大模型。

在微軟的十五年間,袁路主要鑽研計算機視覺、圖形學、計算攝影學和應用機器學習,多項研究成果被運用到微軟的產品和應用中,包括微軟 Pix 相機、OfficeLens、BLINK、Hyperlapse,其主持研究開發的「微軟自拍」APP,主打智能美顏、低光照美化照片等功能,曾獲得54個國家「*新APP」。

曾鋼與譚平博士畢業后沒有加入微軟,而是首先進入了學術界:

2006 年畢業的曾鋼先是去了蘇黎世聯邦理工學院從事助理研究員工作,現成為北大人工智能研究院的研究員與博士生導師。2007 年畢業的譚平先是去到新加坡國立大學電子與計算機工程系任助理教授,2014 年又轉去加拿大。

拿到教職后,曾鋼和譚平都向權龍請教過如何當一名「青椒(青年教師)」,權龍給了他們三個建議:好好上課,多拿經費,用心帶學生。

5

更徹底的工業主義

2012 年后,深度學習崛起,計算機視覺成為一門顯學,受到了資本的熱情追捧。對着港科大視覺實驗室在三維重建上的研究逐步深入,權龍也開始思考一個新的問題:如何將實驗室的研究成果產業化?

港科大曆來有產學研結合的傳統,高秉強、李澤湘與甘潔組成的「鐵三角」是港科大產學研的代表,例如,高秉強投資的安防 CIS 龍頭思特威就在 2022 年成功上市。技術成果轉化最直接徹底的方式無疑是創業。

權龍和學生們創業的契機可以追溯到 2012 年。

方天在他的博士研究中為一系列基於圖像的建模工作做出了貢獻。畢業后,方天繼續留在實驗室當博士后,當時無人機市場開始爆發,智能手機也越來越普及,作為一名攝影發燒友,方天也開始琢磨起用這些新設備拍照。

方天內心的想法是:怎麼結合越來越好的數字圖像拍攝硬件和自動化的三維重建技術讓更多的人可以輕松重建三維模型製作三維內容。

這個想法與權龍一拍即合。而恰好方天在博士期間做了大量的工程開發爲這個想法打下了基礎。現在萬事俱備,只欠東風。

2015 年,權龍就與方天還有別的博士生一起創立了 Altizure。

Altizure 開發了一個3D重建雲平臺,適用於來自相機、手機和無人機的所有圖像,已成功應用於大規模 3D 建模。

同時,他們也開始製作城市級別的實景三維模型,為智慧城市和安防系統提供了基礎,還進一步拓展了其技術的應用範圍,為測繪和地理信息行業提供大規模數據處理服務。

權龍十分認可方天的想法,在他看來,三維重建技術的核心在於數據的獲取。隨着硬件設備的普及,智能手機、無人機與無人駕駛中的車載相機都配備了高質量的攝像頭,能為三維重建提供了豐富的素材。消費級無人機的普及更是讓自動化和大規模的數據收集成為可能。

2015 年 Altizure 成立,權龍與方天就同步推出了同名的核心產品。作為一個創新平臺,Altizure 能夠將無人機航拍照片轉換成三維實景模型。在權龍和方天的規劃中,Altizure 將利用無人機飛手的力量,逐步重建出整個地球的三維模型,形成一個眾包的 Google Earth。

Altizure 一經發布,便深受無人機愛好者和專業用户的青睞。

起初,Altizure 只開放了網站這一個面向消費者的入口。隨着技術的逐漸成熟,權龍和方天意識到,服務應更多地面向企業和政府,即 2B 和 2G 市場。

於是 Altizure 也開始製作城市級別的實景三維模型,為智慧城市和安防系統提供了基礎,還進一步拓展了其技術的應用範圍,為測繪和地理信息行業提供大規模數據處理服務。

由於出色的三維建模技術, Altizure 很快被國際大廠併購。

而在權龍與方天之后,VisGraph 的第二位創業者是肖健雄。

肖健雄 2009 年去 MIT 讀博,隸屬於知名的計算機科學與人工智能實驗室(CSAIL),專注於大數據驅動的三維場景分析研究,博士期間獲得了2012年 Google Research 的*論文獎。之后,他加入普林斯頓大學擔任助理教授,研究如何將三維視覺應用在機器人領域,開拓了 RGB-D 場景分析和三維深度學習兩項創新研究,在無人駕駛、Visual SLAM 和機器人控制等實際應用領域都展現出了巨大潛力。

自動駕駛興起后,2016 年肖健雄就辭掉了教職、投身創業大潮,創立了自動駕駛技術公司 AutoX,專注在 L4。

繼肖健雄之后,VisGraph 的第三位創業者是譚平。

2019 年,進入學術界 12 年后的譚平對工業界還是熱情不滅,遂回國投身 AI 產業建設,但過程有些坎坷。

他先短暫加入 360 擔任人工智能研究院副院長,與顏水成搭檔。當時 360 有意研究自動駕駛,譚平擅長的三維視覺正是高精地圖、導航、避障等問題所急需的。后來,360 終止了自動駕駛業務,團隊將研究成果轉化爲了一款掃地機器人。掃地機器人產品上市后,譚平就離開了 360。

后在淺雪的邀請下,譚平加入了阿里人工智能實驗室擔任視覺首席科學家。

譚平專長 3D 視覺,這方面的人才在國內長期稀缺。當時阿里人工智能實驗室的發展很好,有天貓精靈與自動駕駛等團隊,譚平想研究 XR,淺雪也在規劃相關產品,找到譚平,就加入了阿里。但沒多久,公司組織結構調整,阿里人工智能實驗室就被解散。之后譚平轉去阿里雲呆了一年半,21年又轉去阿里達摩院擔任 XR 實驗室負責人。

在 XR 實驗室,譚平希望打造一款面向消費者的MR眼鏡,將元宇宙這一願景打造成下一代互聯網。在他設想的產品里,顯示、交互都將從兩維升級到三維。社交、電商、娛樂應用都會被徹底顛覆,用户可以直接沉浸式的和虛擬信息面對面交流。

*時期,阿里的 XR 實驗室有 200 多名研發人員,分散在北京、杭州、深圳乃至以色列。然而到了 2022 年,XR 熱潮逐漸消退,阿里在 XR 方向的研發策略也有所調整,譚平領導的 XR 項目只做了一年就被緊急叫停,許多員工選擇離開,譚平也於年中離職。

因為阿里的這段經歷,譚平意識到,如果他想將 XR 技術落地,或許不如參考導師權龍的方式:在高校做產學研孵化。所以 2023 年,譚平加入了港科大任教,研究三維生成模型,又創立了 AI 科技公司光影煥像(Light Illusions)。

譚平在港科大的辦公室就在曾經 VisGraph 的 4204 實驗室樓下。譚平由此向雷峰網感嘆,他在學術界與工業界之間多次兜轉跳躍,「又回到了夢開始的地方」。

2021 年,危夷晨在曠視經歷了三年多摸爬滾打的創業經歷后,意識到需要深入紮根到具有重要價值的行業,需要將人工智能算法和工程、產品等專業更好地結合起來。他選擇了醫療行業,加入了數坤科技任聯席 CTO。

6

寫在最后

創業公司被收購后,權龍每周都從清水灣往返於銅鑼灣的辦公室,每次通勤都要花一個小時,很辛苦。但權龍依然選擇住在港科大附近。

港科大遠離繁鬧的市區,自封為「金牌導遊」的權龍對校內每個能看到海和島的景點了如指掌。閒暇之余,權龍還喜歡領着來港科大拜訪他的學者、業界朋友們在校園里溜達。權龍的學生們談到,他的身上總是流露着一種難以模仿的「松弛感」。

*松弛感的權龍早早選擇了三維視覺這條彼時人跡罕至的路「一路走到黑」,從太原、北京、法國到香港,從 ICCV *位中稿華人到 ICCV、CVPR 的大會主席。

值得一提的是,權龍更是迎接新 AI 時代前夕的大會主席:2011 年權龍擔任 ICCV 大會主席,CNN(卷積神經網絡)在下一年誕生;2023 年權龍成為 CVPR 大會主席,生成式 AI在下一年成為焦點。

這一切既是偶然,又是必然。

危夷晨、曾鋼、譚平、王井東、袁路、方天、肖健雄、張宏輝、王婧璐,、朱思語、黎世偉、羅梓鑫、張潤澤、鎮明敏、周磊、申天緯、姚遙、張京陽、陳鴻凱、尚嘉祥等人從權龍的實驗室走出,也從三維重建走向計算機視覺的多個方向,並肩同行、又散作滿天星。二十年過去,他們成為中國三維視覺的代表人物。

對於三維視覺的探路者來説,他們歷經統計學習、深度學習再到大模型時代,幾起幾落,但始終都在努力跟上時代的前沿,站在視覺的思維去思考眼前的美好世界。

比如,危夷晨告訴雷峰網,從港科大到 MSRA、曠視、數坤,他一直在嘗試打破自己過去的認知和經驗。譚平最近將 AGI 話語體系下的「世界模型」與機器人領域的「運動模型」結合起來,也有新的認知,常學常新。

4204實驗室的故事已告一段落,但他們的篇章仍未完待續。

【本文由投資界合作伙伴微信公眾號:AI科技評論授權發佈,本平臺僅提供信息存儲服務。】如有任何疑問,請聯繫(editor@zero2ipo.com.cn)投資界處理。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。