9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

特稿|AI小樣本訓練,16秒精準預測蛋白質(zhì)結(jié)構(gòu):自起爐灶有深意

澎湃新聞高級記者 張靜
2021-12-13 18:25
來源:澎湃新聞
? 科學湃 >
聽全文
字號

2016年,DeepMind人工智能機器人AlphaGo以4:1的總比分取勝圍棋世界冠軍韓國棋手李世石。這一年,一家剛剛成立的上海AI企業(yè)開始參考AlphaGo開發(fā)一套AI圍棋程序,隨后擊敗世界圍棋冠軍樸廷桓。2020年,DeepMind人工智能程序AlphaFold2快速精準預測蛋白質(zhì)結(jié)構(gòu),準確度媲美冷凍電鏡等實驗技術(shù)。一年后,這家本土AI企業(yè)再次推出國產(chǎn)自研蛋白質(zhì)結(jié)構(gòu)預測平臺TRFold。

近日,上海天壤智能科技有限公司XLab發(fā)布蛋白質(zhì)結(jié)構(gòu)預測平臺TRFold,其最新版本的預測精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶頸,采取權(quán)重共享的方式節(jié)約算力,預測大多數(shù)蛋白質(zhì)鏈所需時間不超過16秒。

在AlphaFold2已開源的情況下為何還要做人工智能蛋白質(zhì)結(jié)構(gòu)測序?再做一遍的挑戰(zhàn)在哪?數(shù)據(jù)、算力不足情況下如何訓練出一個好模型?接下來又會用TRFold做什么?

天壤創(chuàng)始人薛貴榮在接受澎湃新聞(www.school126.cn)專訪時表示,AlphaFold2為結(jié)構(gòu)生物學研究打開了大門,它就像“萊特兄弟的飛機”,其中的核心技術(shù)一定要自己掌握。如果不參與其中的技術(shù)演變,只能停留在最初的“飛機”結(jié)構(gòu)。

研發(fā)TRFold也讓薛貴榮意識到,AlphaFold2另一個貢獻是其訓練方法可以回饋AI,去做更好的AI。

薛貴榮表示,如果每個模型都需要標注10000個數(shù)據(jù)才能訓練,對AI是一場災難。實際上,數(shù)據(jù)是永遠不夠的,算力也是永遠不夠的,這種情況下算法的創(chuàng)新就顯得更加重要了,比如能否用10張圖片跑出一個好模型。他認為,小樣本下的機器學習對AI來說是個大挑戰(zhàn),而AI的工業(yè)化生產(chǎn)并不需要那么多數(shù)據(jù),這才是正道。

未來,團隊也將繼續(xù)深入模擬蛋白質(zhì)與蛋白質(zhì)之間的相互作用,基于相互作用可構(gòu)建大規(guī)模相互作用網(wǎng)絡(luò)圖、靶點發(fā)現(xiàn)、突變蛋白質(zhì)結(jié)構(gòu)模擬、抗體模擬等。

TRFold 基于 CASP14 蛋白質(zhì)測試集的評估數(shù)據(jù)。綠色:真實結(jié)構(gòu),藍色:預測結(jié)構(gòu)。

單張GPU下16秒精準預測

蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),其三維結(jié)構(gòu)直接決定了它的功能,一旦三維結(jié)構(gòu)被破壞,蛋白質(zhì)功能隨之喪失或改變,許多疾病就是由體內(nèi)重要的蛋白質(zhì)結(jié)構(gòu)異常所致。

每個蛋白質(zhì)的氨基酸鏈扭曲、折疊、纏繞成復雜的結(jié)構(gòu),想要破解這種結(jié)構(gòu)通常需要花很長時間,甚至難以完成。截至目前,約有18萬個蛋白質(zhì)的結(jié)構(gòu)已經(jīng)用實驗方法得到了解析,但這在已經(jīng)測序的數(shù)十億計的蛋白質(zhì)中只占了很小一部分。

在蛋白質(zhì)結(jié)構(gòu)解析的幾十年歷史中,X射線晶體學、核磁共振波譜學(NMR)、冷凍電鏡(Cryo-SEM)技術(shù)紛紛發(fā)揮了巨大貢獻。但這些傳統(tǒng)方法往往依賴大量試錯和昂貴設(shè)備,每種結(jié)構(gòu)的研究都要花數(shù)年時間。

直到AI的加入,讓單個蛋白質(zhì)折疊預測問題得到基本解決,加速結(jié)構(gòu)生物學的發(fā)展。2020年,DeepMind人工智能程序AlphaFold2在蛋白質(zhì)結(jié)構(gòu)預測競賽CASP14中首次利用人工智能技術(shù)快速精準預測蛋白質(zhì)結(jié)構(gòu),準確度達到原子級別,可與冷凍電鏡等實驗技術(shù)相媲美。

而國內(nèi)的學術(shù)界和產(chǎn)業(yè)界也在蛋白質(zhì)結(jié)構(gòu)預測領(lǐng)域緊追國際步伐。除了中科院的Falcon、騰訊的TFold、深勢科技的Uni-Fold,天壤自研蛋白質(zhì)結(jié)構(gòu)預測平臺TRFold基于CASP14的蛋白質(zhì)測試集進行企業(yè)內(nèi)測,取得82.7分(TM-Score,評估蛋白質(zhì)結(jié)構(gòu)拓撲相似性的指標),超過華盛頓大學生物學家David Baker團隊81.3分的成績,僅次于AlphaFold2的91.1分。

TRFold采取權(quán)重共享的方式節(jié)約算力,算力消耗約AlphaFold2的1/32。在訓練時,AlphaFold2使用了128個TPUv3核心(約等于256張GPU),TRFold僅使用了8張 Nvidia RTX 3090 GPU,以極小算力取得接近AlphaFold2的成績。

TRFold采用5000萬參數(shù)循環(huán)多軌注意力網(wǎng)絡(luò),同時支持氨基酸殘基間的距離預測和蛋白質(zhì)全鏈結(jié)構(gòu)預測,400個氨基酸的蛋白鏈使用單張Nvidia RTX 3090 GPU的預測時間只需16秒,而AlphaFold2預測約同樣數(shù)量的氨基酸蛋白鏈則需要70多秒。

在CASP14比賽期間,CASP官方曾發(fā)起一次針對新型冠狀病毒肺炎的蛋白質(zhì)結(jié)構(gòu)預測,天壤基于TRFold提交的模型(nsp6-D2)預測結(jié)果還被CASP選為六個“最具可信度模型”之一。

傳統(tǒng)意義上,單個蛋白質(zhì)模型的預測分數(shù)達到90分以上就與實驗室的預測結(jié)果差別不大,薛貴榮表示,TRFold將繼續(xù)迭代,單蛋白的結(jié)構(gòu)模擬只是開始,未來天壤計劃模擬蛋白質(zhì)與其復合物的相互作用,包括小分子、多肽、其他蛋白質(zhì)等。

他表示,目前明確的研究方向是繼續(xù)深入模擬蛋白質(zhì)與蛋白質(zhì)之間的相互作用?;谙嗷プ饔每蓸?gòu)建大規(guī)模相互作用網(wǎng)絡(luò)圖,以及靶點發(fā)現(xiàn)、突變蛋白質(zhì)結(jié)構(gòu)模擬、抗體模擬等。

“蛋白質(zhì)將來會是一個相互作用網(wǎng)絡(luò),我們獲得這個作用網(wǎng)絡(luò)以后就可以進行深入分析?!毖F榮說,如果將來每個人的蛋白質(zhì)結(jié)構(gòu)和作用網(wǎng)絡(luò)能全部測出,就可以提前通過蛋白質(zhì)內(nèi)部結(jié)構(gòu)的突變分析,預測出未來的健康狀況和治療手段。

“這里面能做的事情實在太多了,我們今天只是海里的水取了一瓢出來看了一下而已?!倍魬?zhàn)也是不言而喻的,多蛋白的相互作用帶來的算力消耗更大,假設(shè)一個億的蛋白質(zhì)和另外一個億的蛋白質(zhì)交互,那是一個億乘一個億的計算組合。“這個組合是爆炸的,用什么樣的算法、策略來加速,這是一個很挑戰(zhàn)的事?!?/p>

薛貴榮

“萊特兄弟的飛機”

2016年,DeepMind人工智能機器人AlphaGo約戰(zhàn)圍棋世界冠軍韓國棋手李世石,以4:1的總比分取勝。這一年,剛剛成立的天壤開始參考AlphaGo開發(fā)一套AI圍棋程序。

2018年5月,天壤AI圍棋執(zhí)白子對戰(zhàn)世界圍棋冠軍樸廷桓,激戰(zhàn)三小時后樸廷桓認負。而這套AI圍棋程序最后用在了城市交通信號燈的控制上,幫助緩解交通擁堵。

2019年,天壤涉足蛋白質(zhì)結(jié)構(gòu)預測。薛貴榮常被問到,為何要進入蛋白質(zhì)預測領(lǐng)域,又或是在AlphaFold2已開源的情況下為何還要做蛋白質(zhì)結(jié)構(gòu)測序。

“從我們一開始做AI圍棋程序時就慢慢認識了AI的威力。這么多年來天壤一直希望用AI解決有挑戰(zhàn)的大問題,比如交通,然后是生物?!毖F榮表示,相對于交通這樣從宏觀層面用算法調(diào)度,人類對微觀世界的認識就更有限了。

“我們從2019年開始做這件事,那時候的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)和今天其實沒什么大的變化。十來萬有結(jié)構(gòu)的蛋白質(zhì)能不能用算法手段把微觀世界未知的蛋白質(zhì)三維結(jié)構(gòu)刻畫出來,這其實是一個很挑戰(zhàn)的事。那時候有沒有AlphaFold2也不知道,更別談能不能做得出來?!?/p>

但如果蛋白質(zhì)預測模型能達到實驗儀器的精度,將是巨大進步。幸運的是,2020年底,AlphaFold2證明了算法的力量,讓整個結(jié)構(gòu)生物學界震驚,掀開了結(jié)構(gòu)生物學的全新一頁,“以前做一個蛋白質(zhì)結(jié)構(gòu)預測可能要花一到兩年,突然一個小時就能解決?!?/p>

蛋白質(zhì)結(jié)構(gòu)預測問題的解決是生命科學探索的全新起點,薛貴榮說,這次變革為整個行業(yè)帶來很大發(fā)展機會,技術(shù)突破將重構(gòu)原來生物應用層面的許多邏輯,比如制藥流程、疾病治療、個性化醫(yī)療等。但事實上,AlphaFold2的開源代碼只是推理代碼,并沒有公開訓練代碼。

AlphaFold2的成功是蛋白質(zhì)結(jié)構(gòu)預測方向的重大突破,而圍繞蛋白質(zhì)結(jié)構(gòu)功能問題且能夠達到實際落地應用準確度要求的AI算法的開發(fā)才剛剛開始,沒有訓練模型經(jīng)驗或沒有具備能夠訓練出AlphaFold2結(jié)果的能力,是無法把該技術(shù)推進到解決更深層次的問題的。

“整個核心技術(shù)還是把控在人家自己手里,今天人家給你東西可以用,至于怎么來的你不知道。”薛貴榮表示。

比如DeepMind團隊10月份發(fā)布的預測蛋白質(zhì)復合體結(jié)構(gòu)的AlphaFold-Multimer就是在AlphaFold2基礎(chǔ)上進行微小調(diào)整后,將蛋白質(zhì)與蛋白質(zhì)之間的關(guān)系預測出來。這種更深入的研究就必須要有自己搭建底層算法的能力,才能真正應用在生物學領(lǐng)域。

“就像做飛機一樣,從萊特兄弟發(fā)明第一架飛機能飛起來,如果中間過程不參與,你永遠還是停留在當時那個結(jié)構(gòu)。但今天大飛機在天上飛起來,能承載那么多人,其中有非常多的研究,很多創(chuàng)新也從中不斷出現(xiàn)?!?/p>

薛貴榮說,今天DeepMind的AlphaFold2就是“萊特兄弟的飛機”,其中的核心技術(shù)一定要掌握,才能和其他團隊在同一賽道比賽?!癆lphaFold不斷往前跑,我們也在不斷追趕他們?!?/p>

AlphaFold2“反哺”AI

“我們很長時間一直也是在70分左右徘徊,也徘徊了很長時間,最近跳躍到80多分?!痹趦赡臧氲难邪l(fā)時間里,TRFold經(jīng)歷了幾十個版本的迭代,當前的訓練架構(gòu)是從今年初就開始設(shè)計,接著處理數(shù)據(jù)、訓練數(shù)據(jù),不停迭代,耗費10個月時間,目前取得82.7分。

而讓團隊頭痛的挑戰(zhàn)就是算力和內(nèi)存,這決定了模型的大小。薛貴榮介紹,“小模型的記憶力是有限的,模型越大記憶能力就越強,但模型越大對應的算力和內(nèi)存需求就越大?!痹谟柧氋Y源有限的情況下,團隊從數(shù)據(jù)和網(wǎng)絡(luò)設(shè)計上做出改進,在算力巨大差距的情況下實現(xiàn)了相對較好的結(jié)果。

“在后續(xù)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的過程中,涉及一個蛋白質(zhì)和另一個蛋白質(zhì)的相互作用,以及多個蛋白質(zhì)之間的相互作用,計算量呈指數(shù)級增長。因此,TRFold以較小算力需求快速預測蛋白質(zhì)結(jié)構(gòu)對后續(xù)開展深入研究具有深遠意義?!碧烊繶Lab團隊負責人苗洪江表示。

數(shù)據(jù)是機器學習的燃料,但相比以往圖像識別機器學習算法需要依靠百萬張圖片數(shù)據(jù)來訓練模型和系統(tǒng),用實驗方法已經(jīng)解析的蛋白質(zhì)結(jié)構(gòu)只有十幾萬個。機器學習大牛吳恩達認為,人工智能落地的挑戰(zhàn)之一是小數(shù)據(jù)的問題,如何使機器學習即使面對小數(shù)據(jù)也能工作。

而這也是困擾薛貴榮的問題。他和苗洪江第一天見面聊就在探討,有結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)夠不夠,能不能訓練出一個滿足效果的模型,還是說再等冷凍電鏡10年,等50萬數(shù)據(jù)出來就夠了?!澳菚r候我們也很擔心,我們就怕這個領(lǐng)域做下去真的是10年以后的事了?!?/p>

但AlphaFold2證明,通過算法和模型設(shè)計、蒸餾數(shù)據(jù)等手段,是可以取得好結(jié)果的。相比AlphaFold2,TRFold的算法模型僅采用少量的真實數(shù)據(jù)訓練,即從多個宏蛋白質(zhì)組序列庫中尋找出蘊含更精準共進化信息的多序列排列,使模型在訓練過程中能夠獲得對真實共進化信息更好的識別能力,從而取得對氨基酸殘基距離和坐標更準確的預測結(jié)果。團隊有望在近期加入蒸餾數(shù)據(jù)增強工作,進一步提高模型的預測和泛化能力。

回過頭來看,薛貴榮認為,除了為結(jié)構(gòu)生物學研究打開了大門,AlphaFold2另一個貢獻是其訓練方法可以回饋AI,去做更好的AI。

“AI三個步驟,數(shù)據(jù)標注準備好,算法設(shè)計好,目標要想好,有了這三件事再加上算力支持才能做AI?!钡珜嶋H上,數(shù)據(jù)是永遠不夠的,算力也是永遠不夠的,這種情況下算法的創(chuàng)新就顯得更加重要了。

“10張圖片能不能出來一個很好的模型?別變成給你10000張圖片能不能出來一個好的模型。小樣本情況下的機器學習能不能做好,其實這對整個AI領(lǐng)域是一個很大的挑戰(zhàn),因為只有小樣本才能具備規(guī)?;?、工業(yè)化的生產(chǎn)能力?!毖F榮表示,如果每個模型都需要標注10000個數(shù)據(jù)才能訓練,數(shù)據(jù)標注行業(yè)的發(fā)展勢頭會很好,但對AI來講是一場災難。

“做什么事都要標大量的數(shù)據(jù)怎么玩得下去?人工智能偏人工了。我們真正要做的是把智能這塊做強,把人工這塊限制在一個框框內(nèi),這才是我們真正講的從人工智能走向機器智能?!睆腁lphaFold到AlphaFold2,薛貴榮認為,這就是人工智能走向機器智能的巨大變化。AI的工業(yè)化生產(chǎn)并不需要那么多數(shù)據(jù),這才是正道。

    責任編輯:李躍群
    圖片編輯:施佳慧
    校對:丁曉
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司

            友谊县| 元谋县| 精河县| 通化市| 漠河县| 长春市| 搜索| 琼中| 香格里拉县| 永安市| 泗水县| 开化县| 新河县| 天水市| 申扎县| 郧西县| 榆树市| 甘肃省| 渑池县| 柳河县| 尼勒克县| 大方县| 瑞金市| 井陉县| 安西县| 南康市| 海晏县| 宜丰县| 克拉玛依市| 贵阳市| 桦川县| 荣昌县| 宣武区| 苍山县| 夏河县| 淮安市| 安龙县| 威宁| 乐安县| 贞丰县| 天镇县|