繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

AI蛋白質摺疊:在生命宇宙中漫遊,遠眺生物經濟的流光

2024-09-16 13:59

在2000年出版的《劍橋世界食物史》(The Cambridge World History of Food)中,記載了一則軼事:1728年,意大利學者雅可布·貝卡利(Jacopo Beccari)宣佈,發現白麪粉中存在具有「動物物質」全部特性的東西。他的處理方式,是將和好的生麪糰在水中揉搓清洗,除去細小的白色澱粉顆粒,剩下的就是粘性的麪筋團,因為不知道它是從哪兒來的,人們就以為它來自動物。貝卡利認為,這些「動物物質」成分使得小麥特別有營養。作為一個整體,麪粉並沒有表現出動物物質特性,這是因為大量澱粉的存在掩蓋了麪筋的性質。

貝卡利的這一在現代人看起來無比粗糙的研究,卻在無意中為后代人開啟了一扇通往微觀生命世界的大門。在一個世紀后的1838年,荷蘭醫生蓋里特·穆爾德(Gerritt Mulder)發表文章稱,他分析過的所有重要的「動物物質」都具有相同的基本組成:40個碳原子,62個氫原子,10個氮原子和12個氧原子,可以簡單地表示為C40H62N10O12。這些「動物物質」表現出不同的性質,僅僅是因為依附於它們的硫或磷原子的個數。他以希臘海神普羅透斯(Proteus,具有預言能力,但會變換成各種形狀以逃避回答問題)為名,將其正式命名為「蛋白質(protein)」。而經過他的研究,初步認定了蛋白質是構成動物和植物的基本物質之一。

再往后的故事,如大家所知,20世紀人類開始從分子層面認識和研究生命,除了DNA的祕密被揭曉,推動了生命科學領域的一次重大飛躍外,蛋白質作為生命的物質基礎、生命活動的主要承擔者的重要性也逐漸為科學家所發掘。而有關蛋白質的研究,特別是關於其三維構型的研究,在經歷了很長一段時間緩慢的推進之后,終於在21世紀的前二十年里,被AI一舉攻破,「AI蛋白質摺疊」成為生命科學領域乃至整個科學研究領域最重要的研究成果。

至此,一幅全新的生物經濟畫卷在人們眼前逐漸展開:利用AI去設計蛋白質(而不是在自然界中挑選蛋白質)、生產契合人類需求的蛋白質產品,如藥物、食品、調味品、新材料、營養保健品、化粧品等,進而推動現有以高污染、高耗能的化工原料為基礎的社會生產生活重心,向着新型的、綠色環保的、可持續發展的生物基社會轉變,成為當下科學家和產業界孜孜不倦的追求。

再回到當下,我們常説21世紀人類將航向兩個宇宙。一個宇宙向外,去往星空深處;一個宇宙向內,去往生命科學的奧祕。近年來中國航空航天工程的快速崛起,再次打開了停滯許久的人類探索太空宇宙的大門,而這艘名為「AI蛋白質摺疊」的宇宙飛船,同樣由中國學者按下了起飛的按鈕,也已經衝出了人類探索生命宇宙的大氣層。

時值年中,正是一個階段性回顧與總結的時間,我們不妨一起回望,它是從何而來,如何發射升空,未來還將駛向何方。

讓我們回到開端,去重新瞭解一個我們無比熟悉又異常陌生的事物:蛋白質。

之所以説熟悉,是因為「蛋白質」在當下這個生活條件富足的時代中,出現的頻次實在是太高了。各種關於飲食、保健的文章和視頻都會不停地告訴我們,某某產品中富含某種蛋白(質),讓大家都知道蛋白質是對身體十分重要的營養素。而説陌生,則是因為大多數人對於蛋白質的作用、價值乃至深層次的運作機制其實不甚瞭解。

從生命科學的角度來説,蛋白質是生命體內四種主要大分子之一(另外三種分別是核酸、多糖和脂質)。在生命體內,DNA作為生命信息的載體,負責遺傳信息的存儲。圍繞它的研究、技術及應用,構成了20世紀人類生命科學領域最重大的進步之一。而關於它的故事,從20世紀50年代雙螺旋結構的發現,到當下各種新興醫療技術的誕生,人們已經不再陌生。

但大家不甚瞭解的是,遺傳信息需要通過轉錄和翻譯形成蛋白質,才能在生命體中執行各種功能。生長、發育、運動、遺傳、繁殖等在內的一切生命活動都離不開蛋白質的參與,包括組成生命體、輸送各類物質、抵禦病毒、消化食物、提供能量、調節激素等,它也因此被稱作「生命的物質基礎」和「生命活動的主要承擔者」。

那麼,蛋白質如何能夠發揮如此多的作用?

答案在於,蛋白質擁有豐富而複雜的空間結構,這些結構決定了蛋白質的功能。蛋白質以氨基酸為基本組成單位,氨基酸的不同排列(即序列)以及在此基礎上的捲曲摺疊,形成了特定的三維立體結構,進而執行不同的功能。人類現在已知組成蛋白質的氨基酸有20余種,如果它們可以以任意順序和長度鏈接、並摺疊形成不同的蛋白質,那麼理論上可能存在的蛋白質數量會達到約101300,比整個宇宙中的原子數量還要多很多倍,功能更是因此豐富而複雜。

換言之,理想的情況下,如果我們可以測清氨基酸在組成蛋白質時摺疊構成的三維結構,就可以瞭解清楚蛋白質發揮什麼作用和如何發揮作用,那將對人們理解生命運行、探索生命奧祕發揮巨大的助益作用。更進一步,如果人類可以在此基礎上對蛋白質進行設計、改造乃至創造自然界中尚不存在的蛋白質,引導它發揮特定的功能,那更將會產生難以估量的價值。例如,在藥物研發領域,靶點、抗體藥、多肽類藥物、蛋白疫苗、融合蛋白藥物等都是蛋白質,如果能夠設計出新穎的蛋白藥物,將會有更大的概率解決當前人類遇見的許多疑難雜症;在食品領域,開發優質、安全、價格低廉的替代蛋白食品,豐富人類營養來源、解決食品短缺問題;材料領域,通過優化蛋白質,開發易降解且能循環使用的環保生物材料,促進社會可持續發展等。

然而,理想很美好,現實卻很曲折。僅僅爲了弄清楚蛋白質的組成和結構,科學界就已經花費了近一個世紀。1902年諾貝爾化學獎獲獎者、德國化學家費舍爾(Hermann Emil Fischer)在20世紀的第一個十年中,率先提出氨基酸之間的肽鍵相連接形成蛋白質的論點,為蛋白質結構研究開啟先河。然而直到半個世紀后的1959年,英國生物學家馬克斯·佩魯茨(Max Perutz)和約翰·肯德魯(John C. Kendrew)使用當時新興的X射線晶體衍射技術,分別對血紅蛋白和肌血蛋白進行了結構探究,人類才第一次「看清」蛋白質分子的細節,二人也因此獲得了1962年諾貝爾化學獎。在同一時期,美國生物化學家克里斯蒂安·安芬森(Christian Boehmer Anfinsen)於1961年發表論文,認為蛋白質所有造成最終構象所需的信息,都被編碼於其氨基酸序列上,即蛋白質一級排序決定三維結構。他的這一猜想被稱為「安芬森法則」,為后來的蛋白質結構預測奠定了基石。1972年,安芬森也憑藉着這一法則斬獲了諾貝爾化學獎。

此后,關於蛋白質結構的研究又經歷了半個世紀曠日持久的緩慢推進。科學家陸續使用晶體衍射、核磁共振、冷凍電鏡等不同實驗技術來測定蛋白質的三維座標。然而,所有這些方法都存在着耗時長、花費高、成功率低等一系列問題,加上蛋白質的數量種類十分龐大,人們用實驗探索蛋白質結構的努力只能算是杯水車薪。

到了90年代,計算機科學的興起,讓基於能量優化的計算方法又成為一種可能。該方法的理論基石就是前面説到的「安芬森法則」,即蛋白質會摺疊到最小的能量狀態,如果能把某個蛋白質的能量最優化,理論上就可以算出它的結構。而把這種方法教給計算機,就可以一步步優化能量,從而達到預測蛋白質結構的目的。

然而,基於能量優化的計算方法雖然在一段時間內取得了一定成果,結果卻始終無法令人滿意,預測出來的結構離實驗技術測出來的結果相差非常遠。究其原因,一方面蛋白質是一個非常大的體系,由成千上萬個原子組成,對應一個非常大的搜索空間,構型是千變萬化的;另一方面,雖然研究者普遍接受蛋白質摺疊到最小能量狀態,但對於「能量函數到底是什麼樣的」這個問題,研究者們莫衷一是。

巨大的研究價值,加上有限的研究手段和緩慢的研究進展,讓蛋白質結構研究成為現代分子生物學「皇冠上的明珠」。僅在二十世紀的后四十余年內,蛋白質相關的研究成果就有七次獲得諾貝爾獎,足見其研究難度和價值。

就此,深入廣闊無垠的蛋白質世界、揭開更多的生命奧祕,成為生命宇宙探索的一個清晰的航向。

進入二十一世紀,機器學習逐步成為計算機科學的重要研究方向,也開始影響蛋白質結構研究。傳統的機器學習方法是直接把蛋白質的氨基酸序列映射到一個三維構型上去,結果略優於基於物理或統計的方法,但並沒有得到本質上的改變。

這時,一把新的鑰匙出現了。

一件在AI領域衆所周知的里程碑事件,是深度學習的嶄露頭角。2012年9月,Geoffrey Hinton等人發表了題為「用深度卷積神經網絡進行ImageNet圖像分類」的論文。文中提出的AlexNet深度卷積神經網絡,在當年的ImageNet分類任務比賽ILSVRC-2012上以巨大的領先優勢獲得冠軍,全面刷新了此前紀錄。就此,深度學習技術異軍突起,進而帶動沉寂多年AI技術進入了新的高潮期,業界迎來了寒冬之后的第三次AI崛起。

深度學習算法採用了模擬大腦神經元工作方式的多層神經網絡來實現。它的優勢在於,可以不關注每一步的具體計算流程,而是隻需要關注整體的輸入和輸出結果。比如在蛋白質結構研究這一領域,研究者可以提供氨基酸序列,並向AI算法提供氨基酸序列對應的結構,從而訓練AI學會自主預測蛋白質結構。這個方法跨越了以往蛋白質結構預測方案的思維定式,全面激活了AI蛋白質預測的可行性。

此時,依舊堅守在蛋白質結構研究的科學家中,已經有人敏鋭地注意到了深度學習這個新工具。但最初的嘗試依舊並不樂觀,使用深度學習后與傳統的機器學習方法差別不大。深度學習與蛋白質分析的第一次相遇,並沒有取得勢如破竹的效果。

讓這一切真正從長夜走向黎明的,是一位中國學者的研究成果。

2014年,在芝加哥大學豐田計算技術研究所任職的許錦波教授,設計了一種新的深度學習算法,從更為簡單的問題入手——預測蛋白質的二級結構,即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側鏈。測試發現,深度學習對這個簡單問題有效。此后在2015年和2016年,許錦波教授再次開發了更好的深度學習算法,可以直接用來預測蛋白質的三維結構。

2016年夏天,許錦波教授開發出的算法RaptorX-Contact,證明了深度殘差卷積神經網絡可以大幅度提高蛋白質結構預測的性能,並在當年的全球蛋白質結構預測比賽(CASP12)中,在蛋白質接觸矩陣的預測上得分居首位,引發學界關注。在此之前,CASP的平均得分一直在30分左右徘徊,而許錦波教授的算法一舉將紀錄提升到了60分,實現了真正的顛覆性突破。相關成果於2017年發表於國際計算生物學會官方期刊PLoS Computational Biology,后來獲得PLoS Computational Biology創新突破獎。

至此,蛋白質宇宙的大門,終於被「AI」這把鑰匙打開了。

此后,許錦波教授繼續優化和推廣這一算法,他的核心思想也快速被業界其他研究者採納,並相繼用於各種AI蛋白質摺疊算法的開發。一時間,用深度學習方法研究蛋白質結構的成果出現了井噴。僅許錦波教授自己,就很快在隨后的研究中進一步認識到,氨基酸之間的距離預測,不能一對一對預測,要所有對一起預測,並又一次率先開發出端到端模型。相關成果於2019年8月在美國國家科學院院刊(PNAS)發表,全球範圍內首次將AI應用至蛋白質氨基酸(原子)之間的距離預測,進一步提升了蛋白質三維結構預測的精度,且讓科學家僅需使用筆記本電腦就能完成這項工作,將AI蛋白質結構預測又推向了一個新的高度。

再往后的故事,大家都知道了。DeepMind推出的AlphaFold 2在2020年的CASP 14中,實現了對大部分蛋白質結構的預測與真實結構只差一個原子的寬度,達到了人類利用冷凍電鏡等複雜儀器觀察預測的水平,引發了全球科學界海嘯般的轟動。當年,AI預測蛋白質結構就被《科學》雜誌評為「十大科學突破之一」,2021年又被評為「十大科學突破」之首,2022年又入選了《麻省理工科技評論(MIT TR)》十大突破性技術。

不過,在此期間,還有一個不被外界熟知的小故事。

在2016年秋天,許錦波教授召開了一個小型報告會,向學界人士介紹RaptorX-Contact的研究成果。其中一位參會者,就是芝加哥大學生物物理系的博士后、后來領導DeepMind團隊、設計了AlphaFold的John Jumper。在聽完報告后,后者全力轉向深度學習方法,並在一兩個月后加入DeepMind。

后來,業界普遍認為,AlphaFold的早期版本,其實現方式並沒有太多創新,而是基於RaptorX-Contact的算法思想。而AlphaFold 2中的關鍵思想,即端到端模型,根據序列的特徵直接輸出三維結構,同樣與前述許錦波教授於2019年發佈的研究成果異曲同工。也正因為如此,AlphaFold取得的成果,還曾在業內引起過一段爭議:相比較大學校園中的科研活動,大企業支持的商業實驗室,其成果是否更多是精湛的工程技術,而非創新的科學見解?

當然,這段歷史現在已經有了公論。CASP比賽的創辦人,馬里蘭大學細胞生物學和分子遺傳學系教授約翰·莫爾特(John Moult)就曾表示:「DeepMind在開發一種非常有效的方法方面做得很好。然而,這項工作背后的概念和方法並非憑空而來,關鍵技術是深度學習方法的應用。毫無疑問,DeepMind直接建立在許錦波的工作之上。」

站在當下,AlphaFold為生命科學帶來的巨大影響無法被否定。但中國學者許錦波在推動AI蛋白質研究、AI for Science的道路上做出的先驅、開創性的成果,也同樣不該被人忘記。

正如本文第一部分所説,測清蛋白質的三維結構,將對人們理解生命運行、探索生命奧祕發揮巨大的助益作用。在此基礎上,如果我們可以對蛋白質進行重新設計、引導它發揮特定的作用,乃至生成全新的蛋白質,那更將會產生難以估量的價值。就此而言,許錦波教授和他的RaptorX-Contact開了一個頭,但這只是一個開始。畢竟在深邃的生命宇宙中,還有更多的未知等待着人們去發現。比如,對AI蛋白質結構預測的手段進行優化,進而探明更多蛋白質的結構、更深入地理解生命運行的機制;再比如,更具有應用想象力的AI蛋白質優化與設計。

由於AlphaFold 2擅長的是預測和計算單個蛋白質的結構,僅能夠做預測且高度依賴MSA(來自同源蛋白質的多序列比對)及其衍生的共進化信息和序列譜,而蛋白質世界具有的巨大複雜性,意味着蛋白質結構預測還有很大的探索空間,例如蛋白質與其他分子的相互作用、單點突變對蛋白質結構和功能的影響、孤兒蛋白質結構預測、蛋白質側鏈預測等。因此,僅AI蛋白質結構預測領域,在AlphaFold 2出現后就仍然不斷有前沿成果涌現。

例如,2021年,「科學突破獎」獲得者,被稱作「上帝之手」的華盛頓大學教授David Baker領導來自華盛頓大學、哈佛大學、德克薩斯大學西南醫學中心等團隊發佈的AI工具RoseTTAFold,擁有媲美AlphaFold 2蛋白質結構預測的超高準確度,而且更快、所需計算機處理能力更低,不僅可以預測單個蛋白質結構,還能預測蛋白複合物結構,但和AlphaFold 2類似,依賴於使用MSA和相似蛋白質結構的模板來實現最優表現。2022年,META也曾推出ESMFold,其在預測蛋白質的三維結構方面與AlphaFold 2能力相當,且能預測孤兒蛋白的結構,計算速度比AlphaFold 2快了一個數量級,單序列輸入時精度也明顯好於AlphaFold 2。不過后來META解散了該團隊,停止在這一領域繼續大規模投入。除了這兩個在業內大名鼎鼎的團隊之外,在其他一些AlphaFold 2沒有很好解決的問題方面,仍有研發團隊不斷取得超過前人的成果。

這里還有一個小插曲。2024年5月8日,谷歌旗下公司DeepMind和Isomorphic Labs合作,正式發佈了蛋白質結構預測領域的最新AI模型AlphaFold 3。DeepMind宣稱,AlphaFold 3能預測含有蛋白質數據庫(Protein Data Bank)內幾乎所有分子類型的複合物的結構,包括配體(小分子)、蛋白質、核酸(DNA和RNA)如何聚集在一起並相互作用,以及預測翻譯后修飾和離子對這些分子系統的結構影響,從而幫助我們在原子水平上精確地觀察生物分子系統的結構。不過,這一全新版本暫時不開源代碼,需要等到六個月以后,才能將代碼和模型權重提供給學術界使用。因此,新版本能在多大程度上超越前作,謎底還有待進一步揭開。

而在AI蛋白質結構預測繼續取得突破的同時,也有目光長遠的科學家轉向了更具產業應用價值的AI蛋白質優化與設計。

以生物醫藥為例,此前,由於對蛋白質結構與功能的理解不夠深入,生物藥的開發一定程度上受到了侷限。而如果可以運用AI對蛋白質進行優化與設計,則有希望加速提升蛋白質藥物的性質,獲得更理想的功能,甚至可藉助AI,根據靶點按需快速生成新的蛋白質藥物乃至自然界不存在的全新葯物分子,很多過去缺少解藥,甚至被視為沒有解藥的疾病,有了被治癒的可能。

同理,在其他諸如合成生物、農業、食品、新材料等更廣泛的領域,AI蛋白質優化與設計技術還有更多、更豐富的想象力。例如,在當下發展勢頭迅猛的合成生物領域中,酶(也是一類蛋白質)被廣泛使用用於生物催化,如果可以設計和改造酶的結構和功能,提高催化效率、穩定性和選擇性,將極大提升生物合成、催化與轉化的效率。或者,直接設計具有特定功能的蛋白質製品,比如,開發更易於人體吸收、更富營養的替代蛋白食品;研發對人類安全無害、對環境友好的綠色生物農藥;開發強有力的塑料降解催化劑幫助消除污染;創造更有延展性和韌性的纖維材料從而提升航空工業水平;提升農作物的產量、品質,培育更多綠色高產的農作物產品……如此多的應用方向,還有待人們開發強有力的蛋白質優化與設計工具逐一去探索解決。

但相比蛋白質結構預測,蛋白質設計是一個更加困難的問題。

首先,蛋白質序列空間非常大。自然界有20余種氨基酸,假設我們需要設計1個帶有100個氨基酸的蛋白質,這個蛋白質的序列空間就有20100種可能性。但是這個巨大的序列空間中僅有很小比例的氨基酸序列可以穩定摺疊,且具有我們所需的特定功能。因此,要在巨大的空間中找到符合需求的氨基酸系列,無異於大海撈針。

其次,基於特定功能設計蛋白質,需要對蛋白質結構、功能的深入理解,而這對科學家和產業界而言,仍是難題。

再次,產業界對蛋白質的需求複雜多樣,比如根據特定靶點設計蛋白藥物,設計可催化特定底物的酶,或是提升現有酶的催化效率等,這無疑又加大的蛋白質設計研究的複雜程度。

以有「萬能生物催化劑」之稱的P450酶(CYP)為例。作為一個在生物體內廣泛分佈的龐大酶家族(包含多個家族、亞家族和酶個體,具有高度的多樣性和複雜性),它能夠催化多種反應類型,且可識別的底物(即可與其發生生化反應的物質)範圍極廣,因而在藥物合成,以及合成生物領域的應用中具有極大的潛力。由於天然存在的P450酶無法完美契合工業需求,因此改造現有或設計具備新功能的P450酶,從而拓寬其應用範圍的需求就應運而生。然而,大多數P450蛋白的長度約為4—500個氨基酸,這就意味着,設計出新P450的可能性就達到了20400-20500,比宇宙中所有原子的數量(有預計可達到1078x1082)還要多得多,想找到合適的那一種無異於在大海中撈針。不止如此,由於P450酶的催化反應需要適配的輔酶,這就意味着設計具備新功能的P450酶,還需要同時考慮其他蛋白質與其相互作用的情況,這讓設計新酶的複雜度呈指數型上升。

在沒有AI技術以前,科學界也在運用一些方法,試圖在浩如煙海的蛋白質宇宙中,尋找可能對人類有價值的蛋白質分子,並有目的地對蛋白質分子進行優化設計,使其更好地為人類所用。例如,定向進化和理性設計。前者主要是模擬自然選擇的過程,對目標基因進行多輪突變和篩選實驗,直至獲得所需的優良變體;后者則是依據序列和結構信息,選擇較少的關鍵位點進行精準改造。但兩者都具有很明顯的缺陷。前者通過模擬自然選擇過程,對目標基因進行多輪突變和篩選實驗,直至獲得所需水平的優良變體,但是該技術受限制於較低的篩選速率和序列空間中龐大的變體數量。后者依據序列和結構信息,選擇較少的關鍵位點進行精準改造,從而構建較小的突變文庫,但是需要對結構功能信息有深入瞭解,並且當實驗結果不符合預測時無法調整。像前述的P450酶,想要找到理想的新分子,研究者們可能花費畢生的精力,也未必能得到想要的成果——從20世紀50年代P450酶被首次發現以來,研究界還從未能夠通過人工設計的方式得到新的分子,僅僅是對某些已存在的分子進行了部分改造優化。研究界需要更有力的工具方法,更快、更精準地設計符合需求的蛋白質。

2018年以后,許錦波教授率先將研究範圍擴展至AI蛋白質優化與從頭設計,並將預訓練機制引入其中,進一步探索AI蛋白質技術的產業應用路徑。他先后推出了十余項技術,比如,可同時用於蛋白質側鏈預測與序列設計的算法,性能媲美ESMfold的單序列結構預測算法,精度超越AlphaFold 3的複合物預測算法等,並創新性地融合AI與分子動力學、量子化學等技術,解決科學與產業問題。這些技術不僅在測試中表現出了世界領先的性能,也在濕實驗中得到驗證,迅速被一些跨國藥企、生物科技公司所採用。2021年底,他回國創建了名為「分子之心」的AI蛋白質優化與設計平臺公司,並快速推出了業內首個功能完整的AI蛋白質優化與設計平臺MoleculeOS,推動相關研究成果儘快實現更大的應用價值與社會價值。

除了許錦波教授以外,其他團隊也在陸續發表AI蛋白質設計算法,探索各種功能性蛋白質生成,只是成果僅限於計算層面,未有公佈產業應用結果。2022年9月,David Baker團隊又開發出一種名為ProteinMPNN的從頭設計蛋白質的深度學習工具,確定與給定蛋白質結構相對應的氨基酸序列,短短几秒鍾之內就能夠根據自主意願快速生成全新蛋白質,不過無法要求蛋白具備某種性質;2023年7月,該團隊又發佈了一種能從頭設計全新蛋白質的深度學習方法RoseTTAFold Diffusion,其基於擴散模型(diffusion model),能生成各種功能性蛋白質,包括在天然蛋白質中從未見過的拓撲結構,但與ProteinMPNN類似,無法進行精確的條件式生成,讓蛋白具有某種特定的性質。2022年12月,Generate Biomedicines也公佈了一個名為Chroma的項目,同樣藉助擴散模型(diffusion model),生成自然界中沒有的全新蛋白結構,並生成了模擬26個英文字母和10個阿拉伯數字形態的全新蛋白結構。然而,Chrome無法基於功能需求產生蛋白,也不能指導如何評估生成的蛋白的功能性,因此更類似於科研工作,對產業應用有多少價值還有待進一步挖掘。

AI蛋白質優化與設計工具如雨后春筍般地出現,讓關於AI蛋白質宇宙的探索,又進入到一個更深邃的空間。

當時間進入2023,已經駛入深空的AI蛋白質研究又獲得了新的助推器——大模型。

2022年年底,以ChatGPT為代表的大語言模型掀起了新的AI熱潮,運用AI大模型解決產業問題成為一種新的趨勢。而在科學家們看來,生物是一個高度數字化的系統,具備可解讀、可編程的特性,因而大模型的生成能力同樣可以應用在生命科學領域,二者可以説是天作之合。

不過,諸如ChatGPT之類的AI大模型,側重於通用領域的文本、圖片、視頻等內容生成,無法滿足諸如蛋白質生成之類的產業深度需求。原因在於,蛋白質序列形成的結構比自然語言的結構複雜得多,數據也比自然語言複雜得多,涉及高度專業、多樣的蛋白質大數據。現代的通用大模型底層架構無法精準地對這些蛋白質多模態數據精準建模,要做好蛋白質生成,必須從底層建立更新、更強大的AI建模技術。因此構建AI蛋白質生成大模型、提升蛋白質設計的效率和成功率,也成為業內關注的新方向。

研究界在近幾年陸續產生一些成果。例如,2020年,AI研究機構Salesforce Research、合成生物學公司Tierra Biosciences和加州大學舊金山分校的一組研究人員聯合構建的ProGen,能夠以類似「遣詞造句」的方式生成跨多個蛋白質家族且功能可預測的蛋白質序列。但其只能接受序列信號、無法接受結構信號,不能夠同時考慮結構、功能、相互作用、進化等信息,成功率較低,也無法精準地實現產業應用中所需要的功能。而在國內,2023年,百圖生科與清華大學聯合提出了千億參數的蛋白質語言模型xTrimoPGLM,探索了蛋白質理解和生成這兩種類型目標之間的兼容性以及共同優化的可能性,能夠對單個蛋白質、細胞中蛋白質相互作用、細胞本身,以及細胞系統建模。2024年6月,由前Meta AI研究人員創立的Evolutionary Scale AI發佈了蛋白質語言模型ESM3,能力超越了前述兩種,支持序列、結構、功能的同時推理,但目前仍存在生成精度不足、使用特別複雜、無法微調等問題。

率先取得產業應用成果驗證的,還是許錦波教授及其團隊。在分子之心成立不久后的2023年,團隊又推出了業界首個集成序列、結構、功能和進化的產業級AI蛋白質生成大模型「NewOrigin(達爾文)」,不僅具備成功率高、普適性高等優勢,從而通過計算的方式,規避了傳統方法對大規模濕實驗(即生物實驗)的依賴,提高生產效率、降低成本,還可以讓不具備AI算法背景的生物學家,通過對話的形式與大模型進行交互。

此后,團隊積極地將其投入應用於產業項目,在產業實踐中一邊獲得反饋、一邊進行優化。不到一年的時間里,就取得了多個產業應用成果。例如,在生物材料領域,運用NewOrigin幫助合作伙伴優化一種涉及行業瓶頸,但極具商業價值的關鍵蛋白質,在未使用產業場景數據的情況下,相對於野生菌,AI設計的一個重要酶蛋白結構使菌種產率提高了5倍,有望讓這一被持續改造了數十年的蛋白質實現性能飛躍,從而帶動產率大幅提升、成本大幅降低;在創新葯研發領域,針對某蛋白疫苗的穩定性、表達量等進行多目標優化,AI優化后的疫苗,經過動物實驗表明,產生中和抗體滴度達到已公開專利和相關大型藥企同類疫苗的數倍,並突破相關疫苗穩定性專利。而AI設計的一條細胞因子管線,在保持抑制腫瘤活性的同時,減毒(減少外周活性)數百倍,猴子耐受劑量達到同類管線的數十倍……成功的產業應用成果,證實了AI蛋白質大模型的強有力能力。

大模型的表現初露鋒芒,讓人信心倍增。在大模型的加持下,過往蛋白質研究的「挖礦尋寶」碰壁試錯的模式,將變成「按圖索驥」的新方式,甚至有可能從頭「發明」具備特定功能的全新蛋白質。而通過可編程的蛋白質設計技術,將解決傳統方法無法滿足的需求,極大地提升藥物研發、合成生物、新材料、食品、農業、環保等領域的研發效率,並降低成本。一個由AI蛋白質大模型作為底層技術支撐、從而推動生物製造產業更加欣欣向榮的場景,已然躍入眼前。

值得一提的是,2024年9月,分子之心宣佈完成A輪融資。融資額達數億元人民幣,由謝諾投資、深創投聯合領投,商湯國香資本、久奕投資跟投。截至此次融資,分子之心累計完成3輪融資,過往投資方包括合成生物學龍頭企業凱賽生物、紅杉中國、百度BV、聯想創投等。至此,分子之心可以説已經成長為具有行業標杆地位的AI生物大分子設計平臺公司,為中國AI生物基礎設施建設打開了新的局面。

許錦波教授表示,本輪融資將用於進一步擴大頂尖複合型技術及產業人才團隊,推進高性能算力平臺、智能化高通量濕實驗室等硬實力建設,深入AI蛋白質基礎大模型、AI蛋白質優化設計平臺MoleculeOS等生物經濟基礎設施建設,更進一步推動AI蛋白質技術的產業級應用及商業化發展。

有了大模型這一助推器,AI蛋白質宇宙深空中的繁星愈發觸手可及。

二十世紀的后五十年中,人們見證了以基因技術為代表的生物科技日新月異,以及在此基礎上醫療健康水平的提升、農牧業生產改善與豐富。進入二十一世紀,合成生物學、AI蛋白質摺疊爲代表的新一代生物科技興起。一種不依賴化石能源,而是通過生物製造與生物產品推動社會發展的新科技通道,躍入了人類社會的想象。

麥肯錫全球研究院曾在2020年發佈的一份研究報告中指出,全球經濟活動中60%的物質產品可以通過生物技術進行生產,其涉及市場規模可能高達4萬億美元。面對如此巨大的經濟價值,以及化石能源走向枯竭、環境污染日益嚴重的問題,世界各國紛紛在生物經濟、生物科技的創新應用等方面展開頂層設計與前瞻性佈局。希望能夠在生物經濟時代的大變局中佔得先機。

目前,包括中、美、日、歐盟等60多個國家或地區已經制定了生物製造或生物經濟的專門政策,更新國家與地區生物經濟發展戰略,以及制定生物製造發展路線圖和行動計劃等。

其中,在2022年美國白宮啟動了《國家生物技術和生物製造計劃》,並於2023年發佈「生物技術和製造目標」時間表,成立國家生物經濟委員會,明確要大幅度提升生物製造的速度、成功率和創新效率,解決生物實驗法無法解決的問題;2024年3月,歐盟委員會發布題為「與自然共建未來:推動生物技術和生物製造」的政策文件,提出採取有效利用研究成果並促進創新、刺激市場需求、簡化監管途徑、鼓勵公共和私人投資、制定並更新標準、開展國際合作等一系列針對性措施,促進歐盟生物技術和生物製造發展;2024年5月,日本政府提出,2030年實現100萬億日元市場規模的生物經濟。在生物製造方面,將推動建立生物技術和AI等數字技術融合的微生物和細胞設計平臺,並完善生物工廠等基礎設施。在中國,2022年《「十四五」生物經濟發展規劃》首次專門針對生物經濟進行規劃,明確將生物製造作為生物經濟戰略性新興產業發展方向;2024年「生物製造」作為新增長引擎首次被寫入兩會政府工作報告。

在這樣的時代背景下,AI蛋白質摺疊可謂佔據着「牽一發動全身」的意義。這項技術融合了AI技術的飛速發展與生物經濟的巨大價值。兼兩家之長,成未有之事。

在AI蛋白質相關領域,承接DeepMind創新研究成果的Isomorphic Labs正在與諾華、禮來的AI藥物開展戰略合作;AI驅動的蛋白質設計公司Generate Biomedicines接受了生物科技巨頭安進(Amgen)的19億美元投資,用於開發蛋白質療法;合成生物領域的代表企業Ginkgo Bioworks正在與Google Clouds合作,開發新的大語言模型應用於藥物發現、生物安全等領域,並與美國國防部高級研究計劃局(DARPA),圍繞如何利用無細胞蛋白質合成(CFPS)技術、按需製造蛋白質展開合作;英偉達在2023年連續投資九家應用生成式AI進行藥物研發的初創企業……資本、技術、應用等眾多力量的加入,將會加速AI蛋白質技術的進一步開發,帶來更快、更大規模的應用落地。

站在2024年的時間線上,可以篤定的是,由AI蛋白質摺疊解鎖的生命宇宙航線,即將為生物經濟與人類健康事業,帶來更加多彩的流光。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。