下載客戶端

登錄

特稿｜AI小樣本訓練，16秒精準預測蛋白質(zhì)結(jié)構(gòu)：自起爐灶有深意

澎湃新聞高級記者張靜

2021-12-13 18:25

來源：澎湃新聞

聽全文

2016年，DeepMind人工智能機器人AlphaGo以4:1的總比分取勝圍棋世界冠軍韓國棋手李世石。這一年，一家剛剛成立的上海AI企業(yè)開始參考AlphaGo開發(fā)一套AI圍棋程序，隨后擊敗世界圍棋冠軍樸廷桓。2020年，DeepMind人工智能程序AlphaFold2快速精準預測蛋白質(zhì)結(jié)構(gòu)，準確度媲美冷凍電鏡等實驗技術(shù)。一年后，這家本土AI企業(yè)再次推出國產(chǎn)自研蛋白質(zhì)結(jié)構(gòu)預測平臺TRFold。

近日，上海天壤智能科技有限公司XLab發(fā)布蛋白質(zhì)結(jié)構(gòu)預測平臺TRFold，其最新版本的預測精度接近AlphaFold2，并突破AlphaFold2需要超大算力的瓶頸，采取權(quán)重共享的方式節(jié)約算力，預測大多數(shù)蛋白質(zhì)鏈所需時間不超過16秒。

在AlphaFold2已開源的情況下為何還要做人工智能蛋白質(zhì)結(jié)構(gòu)測序？再做一遍的挑戰(zhàn)在哪？數(shù)據(jù)、算力不足情況下如何訓練出一個好模型？接下來又會用TRFold做什么？

天壤創(chuàng)始人薛貴榮在接受澎湃新聞（www.school126.cn）專訪時表示，AlphaFold2為結(jié)構(gòu)生物學研究打開了大門，它就像“萊特兄弟的飛機”，其中的核心技術(shù)一定要自己掌握。如果不參與其中的技術(shù)演變，只能停留在最初的“飛機”結(jié)構(gòu)。

研發(fā)TRFold也讓薛貴榮意識到，AlphaFold2另一個貢獻是其訓練方法可以回饋AI，去做更好的AI。

薛貴榮表示，如果每個模型都需要標注10000個數(shù)據(jù)才能訓練，對AI是一場災難。實際上，數(shù)據(jù)是永遠不夠的，算力也是永遠不夠的，這種情況下算法的創(chuàng)新就顯得更加重要了，比如能否用10張圖片跑出一個好模型。他認為，小樣本下的機器學習對AI來說是個大挑戰(zhàn)，而AI的工業(yè)化生產(chǎn)并不需要那么多數(shù)據(jù)，這才是正道。

未來，團隊也將繼續(xù)深入模擬蛋白質(zhì)與蛋白質(zhì)之間的相互作用，基于相互作用可構(gòu)建大規(guī)模相互作用網(wǎng)絡(luò)圖、靶點發(fā)現(xiàn)、突變蛋白質(zhì)結(jié)構(gòu)模擬、抗體模擬等。

TRFold 基于 CASP14 蛋白質(zhì)測試集的評估數(shù)據(jù)。綠色：真實結(jié)構(gòu)，藍色：預測結(jié)構(gòu)。

單張GPU下16秒精準預測

蛋白質(zhì)是生命的物質(zhì)基礎(chǔ)，其三維結(jié)構(gòu)直接決定了它的功能，一旦三維結(jié)構(gòu)被破壞，蛋白質(zhì)功能隨之喪失或改變，許多疾病就是由體內(nèi)重要的蛋白質(zhì)結(jié)構(gòu)異常所致。

每個蛋白質(zhì)的氨基酸鏈扭曲、折疊、纏繞成復雜的結(jié)構(gòu)，想要破解這種結(jié)構(gòu)通常需要花很長時間，甚至難以完成。截至目前，約有18萬個蛋白質(zhì)的結(jié)構(gòu)已經(jīng)用實驗方法得到了解析，但這在已經(jīng)測序的數(shù)十億計的蛋白質(zhì)中只占了很小一部分。

在蛋白質(zhì)結(jié)構(gòu)解析的幾十年歷史中，X射線晶體學、核磁共振波譜學（NMR）、冷凍電鏡(Cryo-SEM)技術(shù)紛紛發(fā)揮了巨大貢獻。但這些傳統(tǒng)方法往往依賴大量試錯和昂貴設(shè)備，每種結(jié)構(gòu)的研究都要花數(shù)年時間。

直到AI的加入，讓單個蛋白質(zhì)折疊預測問題得到基本解決，加速結(jié)構(gòu)生物學的發(fā)展。2020年，DeepMind人工智能程序AlphaFold2在蛋白質(zhì)結(jié)構(gòu)預測競賽CASP14中首次利用人工智能技術(shù)快速精準預測蛋白質(zhì)結(jié)構(gòu)，準確度達到原子級別，可與冷凍電鏡等實驗技術(shù)相媲美。

而國內(nèi)的學術(shù)界和產(chǎn)業(yè)界也在蛋白質(zhì)結(jié)構(gòu)預測領(lǐng)域緊追國際步伐。除了中科院的Falcon、騰訊的TFold、深勢科技的Uni-Fold，天壤自研蛋白質(zhì)結(jié)構(gòu)預測平臺TRFold基于CASP14的蛋白質(zhì)測試集進行企業(yè)內(nèi)測，取得82.7分（TM-Score，評估蛋白質(zhì)結(jié)構(gòu)拓撲相似性的指標），超過華盛頓大學生物學家David Baker團隊81.3分的成績，僅次于AlphaFold2的91.1分。

TRFold采取權(quán)重共享的方式節(jié)約算力，算力消耗約AlphaFold2的1/32。在訓練時，AlphaFold2使用了128個TPUv3核心（約等于256張GPU），TRFold僅使用了8張 Nvidia RTX 3090 GPU，以極小算力取得接近AlphaFold2的成績。

TRFold采用5000萬參數(shù)循環(huán)多軌注意力網(wǎng)絡(luò)，同時支持氨基酸殘基間的距離預測和蛋白質(zhì)全鏈結(jié)構(gòu)預測，400個氨基酸的蛋白鏈使用單張Nvidia RTX 3090 GPU的預測時間只需16秒，而AlphaFold2預測約同樣數(shù)量的氨基酸蛋白鏈則需要70多秒。

在CASP14比賽期間，CASP官方曾發(fā)起一次針對新型冠狀病毒肺炎的蛋白質(zhì)結(jié)構(gòu)預測，天壤基于TRFold提交的模型（nsp6-D2）預測結(jié)果還被CASP選為六個“最具可信度模型”之一。

傳統(tǒng)意義上，單個蛋白質(zhì)模型的預測分數(shù)達到90分以上就與實驗室的預測結(jié)果差別不大，薛貴榮表示，TRFold將繼續(xù)迭代，單蛋白的結(jié)構(gòu)模擬只是開始，未來天壤計劃模擬蛋白質(zhì)與其復合物的相互作用，包括小分子、多肽、其他蛋白質(zhì)等。

他表示，目前明確的研究方向是繼續(xù)深入模擬蛋白質(zhì)與蛋白質(zhì)之間的相互作用?；谙嗷プ饔每蓸?gòu)建大規(guī)模相互作用網(wǎng)絡(luò)圖，以及靶點發(fā)現(xiàn)、突變蛋白質(zhì)結(jié)構(gòu)模擬、抗體模擬等。

“蛋白質(zhì)將來會是一個相互作用網(wǎng)絡(luò)，我們獲得這個作用網(wǎng)絡(luò)以后就可以進行深入分析?！毖F榮說，如果將來每個人的蛋白質(zhì)結(jié)構(gòu)和作用網(wǎng)絡(luò)能全部測出，就可以提前通過蛋白質(zhì)內(nèi)部結(jié)構(gòu)的突變分析，預測出未來的健康狀況和治療手段。

“這里面能做的事情實在太多了，我們今天只是海里的水取了一瓢出來看了一下而已?！倍魬?zhàn)也是不言而喻的，多蛋白的相互作用帶來的算力消耗更大，假設(shè)一個億的蛋白質(zhì)和另外一個億的蛋白質(zhì)交互，那是一個億乘一個億的計算組合。“這個組合是爆炸的，用什么樣的算法、策略來加速，這是一個很挑戰(zhàn)的事?！?/p>

薛貴榮

“萊特兄弟的飛機”

2016年，DeepMind人工智能機器人AlphaGo約戰(zhàn)圍棋世界冠軍韓國棋手李世石，以4:1的總比分取勝。這一年，剛剛成立的天壤開始參考AlphaGo開發(fā)一套AI圍棋程序。

2018年5月，天壤AI圍棋執(zhí)白子對戰(zhàn)世界圍棋冠軍樸廷桓，激戰(zhàn)三小時后樸廷桓認負。而這套AI圍棋程序最后用在了城市交通信號燈的控制上，幫助緩解交通擁堵。

2019年，天壤涉足蛋白質(zhì)結(jié)構(gòu)預測。薛貴榮常被問到，為何要進入蛋白質(zhì)預測領(lǐng)域，又或是在AlphaFold2已開源的情況下為何還要做蛋白質(zhì)結(jié)構(gòu)測序。

“從我們一開始做AI圍棋程序時就慢慢認識了AI的威力。這么多年來天壤一直希望用AI解決有挑戰(zhàn)的大問題，比如交通，然后是生物?！毖F榮表示，相對于交通這樣從宏觀層面用算法調(diào)度，人類對微觀世界的認識就更有限了。

“我們從2019年開始做這件事，那時候的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)和今天其實沒什么大的變化。十來萬有結(jié)構(gòu)的蛋白質(zhì)能不能用算法手段把微觀世界未知的蛋白質(zhì)三維結(jié)構(gòu)刻畫出來，這其實是一個很挑戰(zhàn)的事。那時候有沒有AlphaFold2也不知道，更別談能不能做得出來?！?/p>

但如果蛋白質(zhì)預測模型能達到實驗儀器的精度，將是巨大進步。幸運的是，2020年底，AlphaFold2證明了算法的力量，讓整個結(jié)構(gòu)生物學界震驚，掀開了結(jié)構(gòu)生物學的全新一頁，“以前做一個蛋白質(zhì)結(jié)構(gòu)預測可能要花一到兩年，突然一個小時就能解決?！?/p>

蛋白質(zhì)結(jié)構(gòu)預測問題的解決是生命科學探索的全新起點，薛貴榮說，這次變革為整個行業(yè)帶來很大發(fā)展機會，技術(shù)突破將重構(gòu)原來生物應用層面的許多邏輯，比如制藥流程、疾病治療、個性化醫(yī)療等。但事實上，AlphaFold2的開源代碼只是推理代碼，并沒有公開訓練代碼。

AlphaFold2的成功是蛋白質(zhì)結(jié)構(gòu)預測方向的重大突破，而圍繞蛋白質(zhì)結(jié)構(gòu)功能問題且能夠達到實際落地應用準確度要求的AI算法的開發(fā)才剛剛開始，沒有訓練模型經(jīng)驗或沒有具備能夠訓練出AlphaFold2結(jié)果的能力，是無法把該技術(shù)推進到解決更深層次的問題的。

“整個核心技術(shù)還是把控在人家自己手里，今天人家給你東西可以用，至于怎么來的你不知道。”薛貴榮表示。

比如DeepMind團隊10月份發(fā)布的預測蛋白質(zhì)復合體結(jié)構(gòu)的AlphaFold-Multimer就是在AlphaFold2基礎(chǔ)上進行微小調(diào)整后，將蛋白質(zhì)與蛋白質(zhì)之間的關(guān)系預測出來。這種更深入的研究就必須要有自己搭建底層算法的能力，才能真正應用在生物學領(lǐng)域。

“就像做飛機一樣，從萊特兄弟發(fā)明第一架飛機能飛起來，如果中間過程不參與，你永遠還是停留在當時那個結(jié)構(gòu)。但今天大飛機在天上飛起來，能承載那么多人，其中有非常多的研究，很多創(chuàng)新也從中不斷出現(xiàn)?！?/p>

薛貴榮說，今天DeepMind的AlphaFold2就是“萊特兄弟的飛機”，其中的核心技術(shù)一定要掌握，才能和其他團隊在同一賽道比賽?！癆lphaFold不斷往前跑，我們也在不斷追趕他們?！?/p>

AlphaFold2“反哺”AI

“我們很長時間一直也是在70分左右徘徊，也徘徊了很長時間，最近跳躍到80多分?！痹趦赡臧氲难邪l(fā)時間里，TRFold經(jīng)歷了幾十個版本的迭代，當前的訓練架構(gòu)是從今年初就開始設(shè)計，接著處理數(shù)據(jù)、訓練數(shù)據(jù)，不停迭代，耗費10個月時間，目前取得82.7分。

而讓團隊頭痛的挑戰(zhàn)就是算力和內(nèi)存，這決定了模型的大小。薛貴榮介紹，“小模型的記憶力是有限的，模型越大記憶能力就越強，但模型越大對應的算力和內(nèi)存需求就越大?！痹谟柧氋Y源有限的情況下，團隊從數(shù)據(jù)和網(wǎng)絡(luò)設(shè)計上做出改進，在算力巨大差距的情況下實現(xiàn)了相對較好的結(jié)果。

“在后續(xù)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的過程中，涉及一個蛋白質(zhì)和另一個蛋白質(zhì)的相互作用，以及多個蛋白質(zhì)之間的相互作用，計算量呈指數(shù)級增長。因此，TRFold以較小算力需求快速預測蛋白質(zhì)結(jié)構(gòu)對后續(xù)開展深入研究具有深遠意義?！碧烊繶Lab團隊負責人苗洪江表示。

數(shù)據(jù)是機器學習的燃料，但相比以往圖像識別機器學習算法需要依靠百萬張圖片數(shù)據(jù)來訓練模型和系統(tǒng)，用實驗方法已經(jīng)解析的蛋白質(zhì)結(jié)構(gòu)只有十幾萬個。機器學習大牛吳恩達認為，人工智能落地的挑戰(zhàn)之一是小數(shù)據(jù)的問題，如何使機器學習即使面對小數(shù)據(jù)也能工作。

而這也是困擾薛貴榮的問題。他和苗洪江第一天見面聊就在探討，有結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)夠不夠，能不能訓練出一個滿足效果的模型，還是說再等冷凍電鏡10年，等50萬數(shù)據(jù)出來就夠了?！澳菚r候我們也很擔心，我們就怕這個領(lǐng)域做下去真的是10年以后的事了?！?/p>

但AlphaFold2證明，通過算法和模型設(shè)計、蒸餾數(shù)據(jù)等手段，是可以取得好結(jié)果的。相比AlphaFold2，TRFold的算法模型僅采用少量的真實數(shù)據(jù)訓練，即從多個宏蛋白質(zhì)組序列庫中尋找出蘊含更精準共進化信息的多序列排列，使模型在訓練過程中能夠獲得對真實共進化信息更好的識別能力，從而取得對氨基酸殘基距離和坐標更準確的預測結(jié)果。團隊有望在近期加入蒸餾數(shù)據(jù)增強工作，進一步提高模型的預測和泛化能力。

回過頭來看，薛貴榮認為，除了為結(jié)構(gòu)生物學研究打開了大門，AlphaFold2另一個貢獻是其訓練方法可以回饋AI，去做更好的AI。

“AI三個步驟，數(shù)據(jù)標注準備好，算法設(shè)計好，目標要想好，有了這三件事再加上算力支持才能做AI?！钡珜嶋H上，數(shù)據(jù)是永遠不夠的，算力也是永遠不夠的，這種情況下算法的創(chuàng)新就顯得更加重要了。

“10張圖片能不能出來一個很好的模型？別變成給你10000張圖片能不能出來一個好的模型。小樣本情況下的機器學習能不能做好，其實這對整個AI領(lǐng)域是一個很大的挑戰(zhàn)，因為只有小樣本才能具備規(guī)?；?、工業(yè)化的生產(chǎn)能力?！毖F榮表示，如果每個模型都需要標注10000個數(shù)據(jù)才能訓練，數(shù)據(jù)標注行業(yè)的發(fā)展勢頭會很好，但對AI來講是一場災難。

“做什么事都要標大量的數(shù)據(jù)怎么玩得下去？人工智能偏人工了。我們真正要做的是把智能這塊做強，把人工這塊限制在一個框框內(nèi)，這才是我們真正講的從人工智能走向機器智能?！睆腁lphaFold到AlphaFold2，薛貴榮認為，這就是人工智能走向機器智能的巨大變化。AI的工業(yè)化生產(chǎn)并不需要那么多數(shù)據(jù)，這才是正道。

責任編輯：李躍群

圖片編輯：施佳慧

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報

#蛋白質(zhì)結(jié)構(gòu)預測 #人工智能