在2020年各種重大科學(xué)新聞評(píng)選中,“人工智能預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)”是上榜率很高的一項(xiàng)內(nèi)容。50年來(lái),科學(xué)家們一直在努力解決生物學(xué)最大的挑戰(zhàn)之一——預(yù)測(cè)一串氨基酸在變成工作蛋白質(zhì)時(shí)折疊成的精確三維形狀。今年,他們通過(guò)一款人工智能程序,實(shí)現(xiàn)了這一目標(biāo)。那么,這個(gè)工作的意義是什么?人工智能又是如何做到這一點(diǎn)的?
困擾科學(xué)家近50年的難題
我們的生命離不開(kāi)蛋白質(zhì)。蛋白質(zhì)是一切生命活動(dòng)的基礎(chǔ)物質(zhì),它是運(yùn)輸氧氣的載體,是幫助抵御病毒的抗體,也是消化食物的酶。蛋白質(zhì)之所以能夠承擔(dān)多種多樣的功能,很大程度上是因?yàn)樗鼈兙哂胸S富而復(fù)雜的空間結(jié)構(gòu)。
可是,蛋白質(zhì)如何折疊成這些獨(dú)特的形狀呢?這是生物學(xué)領(lǐng)域的一個(gè)重大挑戰(zhàn),已經(jīng)困擾科學(xué)家們近50年時(shí)間。而就在最近,英國(guó)DeepMind公司研究人員創(chuàng)建的人工智能系統(tǒng)AlphaFold將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確度提高到了原子水平,可以說(shuō)基本解決了這個(gè)“蛋白質(zhì)折疊問(wèn)題”。這比許多科學(xué)家的預(yù)期要早了幾十年,顯示出AI 對(duì)解決重大科學(xué)問(wèn)題的潛力。
蛋白質(zhì)占據(jù)我們每個(gè)人體重的大約20%,是除水分(60%)以外第二多的物質(zhì)種類(lèi),其它的脂質(zhì)、碳水化合物、核酸以及各種無(wú)機(jī)物加起來(lái),也僅僅占到20%。蛋白質(zhì)在人體中含量如此之高并不奇怪,因?yàn)榈鞍踪|(zhì)是生命活動(dòng)的主要承擔(dān)者,沒(méi)有蛋白質(zhì)就沒(méi)有生命。
人類(lèi)的生命活動(dòng)須臾都離不開(kāi)蛋白質(zhì)的參與。無(wú)論是身體收縮肌肉、眼睛感知光亮,還是消化系統(tǒng)將食物轉(zhuǎn)化為能量,我們身體的每一項(xiàng)功能之所以能夠正常行使,幾乎都依賴(lài)于蛋白質(zhì)。
資料圖 吳薇
目前地球上已知的蛋白質(zhì)大約有兩億種,每一種蛋白質(zhì)都有獨(dú)特的空間結(jié)構(gòu)。蛋白質(zhì)在生物體中能夠發(fā)揮多種多樣的功能,很大程度上取決于它們的三維結(jié)構(gòu)。
例如,我們免疫系統(tǒng)中的抗體蛋白是“Y形”的,并且會(huì)形成獨(dú)特的鉤狀,這使得它們能夠附著在病毒和細(xì)菌上,檢測(cè)和標(biāo)記致病微生物,將其徹底消滅。膠原蛋白的形狀像擰起來(lái)的繩索,因而能夠在軟骨、韌帶、骨骼和皮膚之間傳遞張力。還有在被稱(chēng)為“基因魔剪”的CRISPR-Cas9基因編輯技術(shù)中,Cas9蛋白質(zhì)利用CRISPR基因序列作為向?qū)?,像剪刀一樣靈巧地剪切和粘貼DNA片段。
然而,確定蛋白質(zhì)的空間結(jié)構(gòu)一直是生物學(xué)中的巨大挑戰(zhàn)。1972年,也就是將近50年前,諾貝爾化學(xué)獎(jiǎng)得主克里斯蒂安·安芬森就猜測(cè),蛋白質(zhì)的氨基酸序列應(yīng)該可以完全決定其空間結(jié)構(gòu)??墒且绾胃鶕?jù)蛋白質(zhì)的氨基酸序列來(lái)確定它的空間結(jié)構(gòu)呢?這就是困擾科學(xué)家們近50年的“蛋白質(zhì)折疊問(wèn)題”。
蛋白質(zhì)如何將自己折疊起來(lái)
蛋白質(zhì)就像是一臺(tái)精心組裝的機(jī)器,它的零件是我們身體內(nèi)的20種氨基酸。在基因編碼合成氨基酸序列的過(guò)程中,一個(gè)個(gè)氨基酸分子遵照基因序列中蘊(yùn)含的遺傳信息指令,像珠子一樣有序綴連起來(lái),形成多肽鏈,構(gòu)成蛋白質(zhì)的一級(jí)結(jié)構(gòu)。
然而,通常的機(jī)器只要按照設(shè)計(jì)圖將零件組裝起來(lái)就可以運(yùn)轉(zhuǎn),而氨基酸分子連接成多肽鏈后,蛋白質(zhì)分子的建造還沒(méi)有結(jié)束,它還需要進(jìn)一步折疊出空間結(jié)構(gòu)才能發(fā)揮功能??墒腔蛐蛄兄粵Q定氨基酸序列的合成,并不包含更多信息指導(dǎo)它如何折疊成獨(dú)特的三維結(jié)構(gòu)。
事實(shí)上,氨基酸序列的折疊方式蘊(yùn)含在自身之中,它們自己設(shè)計(jì)自己如何折疊。一維多肽鏈中的氨基酸分子像是懂得彼此溝通一樣,它們有些相互排斥,有些彼此吸引,形成螺旋、折疊成褶皺,構(gòu)成蛋白質(zhì)的二級(jí)結(jié)構(gòu)。接著,它還會(huì)進(jìn)一步折疊成獨(dú)特的空間結(jié)構(gòu),像一根毛線繞成線團(tuán)那樣,構(gòu)成蛋白質(zhì)的三級(jí)結(jié)構(gòu)。
整個(gè)蛋白質(zhì)折疊的過(guò)程看似隨機(jī),卻又仿佛遵循著一張?jiān)O(shè)計(jì)藍(lán)圖,一旦組成蛋白質(zhì)的氨基酸序列確定下來(lái),它的折疊方式也就完全確定了。這實(shí)際上很符合直覺(jué),我們可以想象,如果同樣的氨基酸序列可以折疊成不同結(jié)構(gòu)的蛋白質(zhì),發(fā)揮不同的功能,我們的身體內(nèi)部會(huì)陷入怎樣的混亂狀態(tài)。
自然界經(jīng)過(guò)漫長(zhǎng)的生命進(jìn)化過(guò)程,蛋白質(zhì)分子在一眨眼之間就能夠自發(fā)地完成整個(gè)折疊過(guò)程。但科學(xué)家們發(fā)現(xiàn),如果想要通過(guò)計(jì)算氨基酸分子間的相互作用來(lái)預(yù)測(cè)它們?nèi)绾握郫B,那么要窮盡所有可能的蛋白質(zhì)構(gòu)型,需要的時(shí)間將比整個(gè)宇宙年齡還要長(zhǎng)。
這個(gè)問(wèn)題困擾了科學(xué)家們很長(zhǎng)時(shí)間。但是在人工智能進(jìn)入這個(gè)領(lǐng)域后,預(yù)測(cè)蛋白質(zhì)折疊的準(zhǔn)確性很快獲得提升。
AI出手精確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)
人工智能(AI)的一種實(shí)現(xiàn)手段是時(shí)下流行的機(jī)器學(xué)習(xí)。2016年打敗人類(lèi)圍棋冠軍的AlphaGo和此次預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的AlphaFold,利用的都是機(jī)器學(xué)習(xí)算法。它的大致思路是,先將大量已有的數(shù)據(jù)——包括結(jié)果(比如圍棋棋譜、貓狗圖片等)輸入計(jì)算機(jī),然后計(jì)算機(jī)對(duì)這些數(shù)據(jù)進(jìn)行分析,利用它驚人的計(jì)算能力從這些數(shù)據(jù)中尋找特征或規(guī)律。這樣,對(duì)于以后輸入的新數(shù)據(jù),它就能作出“富有經(jīng)驗(yàn)”的高明反應(yīng)了。
更為先進(jìn)的人工智能算法甚至允許只輸入很少量的學(xué)習(xí)樣本,就能掌握相關(guān)技能。比如AlphaGo的升級(jí)版本根本不需要輸入棋譜,只要知道圍棋的規(guī)則,就能根據(jù)算法對(duì)規(guī)則進(jìn)行自我摸索和訓(xùn)練,通過(guò)自己跟自己對(duì)弈,最終獲得超越人類(lèi)頂級(jí)圍棋高手的能力。
AlphaFold解決蛋白質(zhì)折疊問(wèn)題的過(guò)程與AlphaGo學(xué)習(xí)下圍棋的過(guò)程類(lèi)似,只不過(guò)輸入的是大量蛋白質(zhì)的序列和結(jié)構(gòu)數(shù)據(jù)——這些數(shù)據(jù)來(lái)自實(shí)驗(yàn)室中實(shí)際測(cè)得的數(shù)據(jù)。AlphaFold從中找尋氨基酸分子之間的相互作用、蛋白質(zhì)片段之間的演化關(guān)系,從而獲得了預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的強(qiáng)大能力。最終,只要知道蛋白質(zhì)的氨基酸序列,就能迅速而準(zhǔn)確地預(yù)測(cè)出它的結(jié)構(gòu),相當(dāng)于通過(guò)精妙的算法,將蛋白質(zhì)的一級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)準(zhǔn)確地聯(lián)系了起來(lái)。
在2018年的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽中,AlphaFold在所有參賽團(tuán)隊(duì)中排名第一,準(zhǔn)確地從43種蛋白質(zhì)中預(yù)測(cè)出了24種蛋白質(zhì)的結(jié)構(gòu),取得了前所未有的進(jìn)步。
到了2020年,AlphaFold的升級(jí)版本從生物學(xué)、物理學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的最新進(jìn)展中汲取靈感,升級(jí)算法,再次以壓倒性的優(yōu)異成績(jī)奪冠。這一次,AlphaFold預(yù)測(cè)的多種蛋白質(zhì)結(jié)構(gòu)與實(shí)驗(yàn)結(jié)果僅僅存在原子尺度的細(xì)微差異,達(dá)到了與傳統(tǒng)的試驗(yàn)方法相媲美的程度,可以說(shuō)AlphaFold基本解決了蛋白質(zhì)折疊問(wèn)題。
AI會(huì)讓生物學(xué)家失業(yè)嗎
AlphaFold取得里程碑性質(zhì)的進(jìn)展,讓人類(lèi)有望在諸多領(lǐng)域得到來(lái)自AI的切實(shí)助力。例如在醫(yī)藥領(lǐng)域,阿爾茨海默癥、帕金森綜合征、亨廷頓綜合征等神經(jīng)系統(tǒng)病變都與蛋白質(zhì)的錯(cuò)誤折疊有關(guān),這直接導(dǎo)致蛋白質(zhì)結(jié)構(gòu)和功能出現(xiàn)異常。而AI的介入將讓人類(lèi)更有效地了解這些錯(cuò)誤折疊背后的機(jī)理,從而提出更加有效的治療方案。又如新冠病毒,大約由30種蛋白質(zhì)組成,在2020年蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽中,AlphaFold精確預(yù)測(cè)了其中一種蛋白質(zhì)(ORF8)的結(jié)構(gòu)。
工業(yè)領(lǐng)域同樣會(huì)受到這一成就的積極影響。以酶化工為例,多種蛋白酶已經(jīng)作為反應(yīng)催化劑獲得了廣泛應(yīng)用。其中很多種都是人類(lèi)近年才發(fā)現(xiàn)的新型蛋白質(zhì),它們個(gè)個(gè)身懷絕技,有些能夠分解原油、有些能夠降解塑料。對(duì)于這些蛋白質(zhì)的結(jié)構(gòu)和催化機(jī)理,我們目前都只有非常初步的認(rèn)識(shí),AI無(wú)疑將大大加速相關(guān)研究的進(jìn)展。
有趣的是,在聽(tīng)聞AlphaFold解決了蛋白質(zhì)折疊問(wèn)題的消息后,很多人調(diào)侃說(shuō),結(jié)構(gòu)生物學(xué)家以后要失業(yè)了。不過(guò)事實(shí)上,AlphaFold只是為結(jié)構(gòu)生物學(xué)家們提供了獲得蛋白質(zhì)結(jié)構(gòu)的一種手段,正如傳統(tǒng)的核磁共振、X射線衍射和冷凍電鏡方法一樣。這些特定結(jié)構(gòu)在生命體中如何發(fā)揮功能,才是更需要結(jié)構(gòu)生物學(xué)家們回答的問(wèn)題。
如著名結(jié)構(gòu)生物學(xué)家顏寧所言,結(jié)構(gòu)只是用來(lái)做出生物學(xué)發(fā)現(xiàn)的手段。比如弄清楚剪切體這個(gè)龐然大物的結(jié)構(gòu)之后,由此揭示出“幾百個(gè)蛋白質(zhì)如眾星捧月般簇?fù)碇鳵NA,一剪子一鉤針地剪接DNA序列中的內(nèi)含子和外顯子”,這個(gè)過(guò)程才是真正的神奇。
除了預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),AlphaFold也將促進(jìn)蛋白質(zhì)設(shè)計(jì)的發(fā)展。在未來(lái),AI或許可以幫助人類(lèi)根據(jù)自身獨(dú)特需要,創(chuàng)造出自然界中原本不存在的蛋白質(zhì)。屆時(shí),必將是生命科學(xué)的一次飛躍。
來(lái)源:北京日?qǐng)?bào)客戶(hù)端 作者:陸修遠(yuǎn)
(作者為大阪大學(xué)免疫前沿研究中心研究員)
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。