除了下圍棋,AI還能預(yù)測“難纏”的蛋白質(zhì)結(jié)構(gòu),它是怎么做到的?

        北京日報 2021-01-06 11:03:42

        在2020年各種重大科學(xué)新聞評選中,“人工智能預(yù)測蛋白質(zhì)三維結(jié)構(gòu)”是上榜率很高的一項內(nèi)容。50年來,科學(xué)家們一直在努力解決生物學(xué)最大的挑戰(zhàn)之一——預(yù)測一串氨基酸在變成工作蛋白質(zhì)時折疊成的精確三維形狀。2020年,他們通過一款人工智能程序,實現(xiàn)了這一目標(biāo)。那么,這個工作的意義是什么?人工智能又是如何做到這一點的?


        蚓激酶蛋白質(zhì)三維結(jié)構(gòu)示意圖 新華社發(fā)

        1 困擾科學(xué)家近50年的難題

        我們的生命離不開蛋白質(zhì)。蛋白質(zhì)是一切生命活動的基礎(chǔ)物質(zhì),它是運(yùn)輸氧氣的載體,是幫助抵御病毒的抗體,也是消化食物的酶。蛋白質(zhì)之所以能夠承擔(dān)多種多樣的功能,很大程度上是因為它們具有豐富而復(fù)雜的空間結(jié)構(gòu)。

        可是,蛋白質(zhì)如何折疊成這些獨(dú)特的形狀呢?這是生物學(xué)領(lǐng)域的一個重大挑戰(zhàn),已經(jīng)困擾科學(xué)家們近50年時間。而就在最近,英國DeepMind公司研究人員創(chuàng)建的人工智能系統(tǒng)AlphaFold將蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確度提高到了原子水平,可以說基本解決了這個“蛋白質(zhì)折疊問題”。這比許多科學(xué)家的預(yù)期要早了幾十年,顯示出人工智能對解決重大科學(xué)問題的潛力。

        蛋白質(zhì)占據(jù)我們每個人體重的大約20%,是除水分(60%)以外第二多的物質(zhì)種類,其它的脂質(zhì)、碳水化合物、核酸以及各種無機(jī)物加起來,也僅僅占到20%。蛋白質(zhì)在人體中含量如此之高并不奇怪,因為蛋白質(zhì)是生命活動的主要承擔(dān)者,沒有蛋白質(zhì)就沒有生命。

        人類的生命活動須臾都離不開蛋白質(zhì)的參與。無論是身體收縮肌肉、眼睛感知光亮,還是消化系統(tǒng)將食物轉(zhuǎn)化為能量,我們身體的每一項功能之所以能夠正常運(yùn)轉(zhuǎn),幾乎都依賴于蛋白質(zhì)。

        目前地球上已知的蛋白質(zhì)大約有兩億種,每一種蛋白質(zhì)都有獨(dú)特的空間結(jié)構(gòu)。蛋白質(zhì)在生物體中能夠發(fā)揮多種多樣的功能,很大程度上取決于它們的三維結(jié)構(gòu)。

        例如,我們免疫系統(tǒng)中的抗體蛋白是“Y”形的,并且會形成獨(dú)特的鉤狀,這使得它們能夠附著在病毒和細(xì)菌上,檢測和標(biāo)記致病微生物,將其徹底消滅。膠原蛋白的形狀像擰起來的繩索,因而能夠在軟骨、韌帶、骨骼和皮膚之間傳遞張力。還有在被稱為“基因魔剪”的CRISPR-Cas9基因編輯技術(shù)中,Cas9蛋白質(zhì)利用CRISPR基因序列作為向?qū)В窦舻兑粯屿`巧地剪切和粘貼DNA片段。

        然而,確定蛋白質(zhì)的空間結(jié)構(gòu)一直是生物學(xué)中的巨大挑戰(zhàn)。1972年,也就是將近50年前,諾貝爾化學(xué)獎得主克里斯蒂安·安芬森就猜測,蛋白質(zhì)的氨基酸序列應(yīng)該可以完全決定其空間結(jié)構(gòu)。可是要如何根據(jù)蛋白質(zhì)的氨基酸序列來確定它的空間結(jié)構(gòu)呢?這就是困擾科學(xué)家們近50年的“蛋白質(zhì)折疊問題”。

        2 蛋白質(zhì)如何將自己折疊起來

        蛋白質(zhì)就像是一臺精心組裝的機(jī)器,它的零件是我們身體內(nèi)的20種氨基酸。在基因編碼合成氨基酸序列的過程中,一個個氨基酸分子遵照基因序列中蘊(yùn)含的遺傳信息指令,像珠子一樣有序綴連起來,形成多肽鏈,構(gòu)成蛋白質(zhì)的一級結(jié)構(gòu)。

        然而,通常的機(jī)器只要按照設(shè)計圖將零件組裝起來就可以運(yùn)轉(zhuǎn),而氨基酸分子連接成多肽鏈后,蛋白質(zhì)分子的建造還沒有結(jié)束,它還需要進(jìn)一步折疊出空間結(jié)構(gòu)才能發(fā)揮功能。可是基因序列只決定氨基酸序列的合成,并不包含更多信息指導(dǎo)它如何折疊成獨(dú)特的三維結(jié)構(gòu)。

        事實上,氨基酸序列的折疊方式蘊(yùn)含在自身之中,它們自己設(shè)計自己如何折疊。一級多肽鏈中的氨基酸分子像是懂得彼此溝通一樣,它們有些相互排斥,有些彼此吸引,形成螺旋、折疊成褶皺,構(gòu)成蛋白質(zhì)的二級結(jié)構(gòu)。接著,它還會進(jìn)一步折疊成獨(dú)特的空間結(jié)構(gòu),像一根毛線繞成線團(tuán)那樣,構(gòu)成蛋白質(zhì)的三級結(jié)構(gòu)。

        整個蛋白質(zhì)折疊的過程看似隨機(jī),卻又仿佛遵循著一張設(shè)計藍(lán)圖,一旦組成蛋白質(zhì)的氨基酸序列確定下來,它的折疊方式也就完全確定了。這實際上很符合直覺,我們可以想象,如果同樣的氨基酸序列可以折疊成不同結(jié)構(gòu)的蛋白質(zhì),發(fā)揮不同的功能,我們的身體內(nèi)部會陷入怎樣的混亂狀態(tài)。

        自然界經(jīng)過漫長的生命進(jìn)化過程,蛋白質(zhì)分子在眨眼之間就能夠自發(fā)地完成整個折疊過程。但科學(xué)家們發(fā)現(xiàn),如果想要通過計算氨基酸分子間的相互作用來預(yù)測它們?nèi)绾握郫B,那么要窮盡所有可能的蛋白質(zhì)構(gòu)型,需要的時間將比整個宇宙年齡還要長。

        這個問題困擾了科學(xué)家們很長時間。但是在人工智能進(jìn)入這個領(lǐng)域后,預(yù)測蛋白質(zhì)折疊的準(zhǔn)確性很快獲得提升。

        3 AI出手精確預(yù)測蛋白質(zhì)結(jié)構(gòu)

        人工智能(AI)的一種實現(xiàn)手段是時下流行的機(jī)器學(xué)習(xí)。2016年打敗人類圍棋冠軍的AlphaGo和此次預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold,利用的都是機(jī)器學(xué)習(xí)算法。它的大致思路是,先將大量已有的數(shù)據(jù)——包括結(jié)果(比如圍棋棋譜、貓狗圖片等)輸入計算機(jī),然后計算機(jī)對這些數(shù)據(jù)進(jìn)行分析,利用它驚人的計算能力從這些數(shù)據(jù)中尋找特征或規(guī)律。這樣,對于以后輸入的新數(shù)據(jù),它就能作出“富有經(jīng)驗”的高明反應(yīng)了。

        更為先進(jìn)的人工智能算法甚至允許只輸入很少量的學(xué)習(xí)樣本,就能掌握相關(guān)技能。比如AlphaGo的升級版本根本不需要輸入棋譜,只要知道圍棋的規(guī)則,就能根據(jù)算法對規(guī)則進(jìn)行自我摸索和訓(xùn)練,通過自己跟自己對弈,最終獲得超越人類頂級圍棋高手的能力。

        AlphaFold解決蛋白質(zhì)折疊問題的過程與AlphaGo學(xué)習(xí)下圍棋的過程類似,只不過輸入的是大量蛋白質(zhì)的序列和結(jié)構(gòu)數(shù)據(jù)——這些數(shù)據(jù)來自實驗室中實際測得的數(shù)據(jù)。Alpha-Fold從中找尋氨基酸分子之間的相互作用、蛋白質(zhì)片段之間的演化關(guān)系,從而獲得了預(yù)測蛋白質(zhì)結(jié)構(gòu)的強(qiáng)大能力。最終,只要知道蛋白質(zhì)的氨基酸序列,就能迅速而準(zhǔn)確地預(yù)測出它的結(jié)構(gòu),相當(dāng)于通過精妙的算法,將蛋白質(zhì)的一級結(jié)構(gòu)和三級結(jié)構(gòu)準(zhǔn)確地聯(lián)系了起來。

        在2018年的蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽中,AlphaFold在所有參賽團(tuán)隊中排名第一,準(zhǔn)確地從43種蛋白質(zhì)中預(yù)測出了24種蛋白質(zhì)的結(jié)構(gòu),取得了前所未有的進(jìn)步。

        到了2020年,AlphaFold的升級版本從生物學(xué)、物理學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的最新進(jìn)展中汲取靈感,升級算法,再次以壓倒性的優(yōu)異成績奪冠。這一次,AlphaFold預(yù)測的多種蛋白質(zhì)結(jié)構(gòu)與實驗結(jié)果僅僅存在原子尺度的細(xì)微差異,達(dá)到了與傳統(tǒng)的試驗方法相媲美的程度,可以說AlphaFold基本解決了蛋白質(zhì)折疊問題。

        4 AI會讓生物學(xué)家失業(yè)嗎

        AlphaFold取得里程碑性質(zhì)的進(jìn)展,讓人類有望在諸多領(lǐng)域得到來自AI的切實助力。例如在醫(yī)藥領(lǐng)域,阿爾茨海默癥、帕金森綜合征、亨廷頓綜合征等神經(jīng)系統(tǒng)病變都與蛋白質(zhì)的錯誤折疊有關(guān),這直接導(dǎo)致蛋白質(zhì)結(jié)構(gòu)和功能出現(xiàn)異常。而AI的介入將讓人類更有效地了解這些錯誤折疊背后的機(jī)理,從而提出更加有效的治療方案。又如新冠病毒,大約由30種蛋白質(zhì)組成,在2020年蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽中,AlphaFold精確預(yù)測了其中一種蛋白質(zhì)(ORF8)的結(jié)構(gòu)。

        工業(yè)領(lǐng)域同樣會受到這一成就的積極影響。以酶化工為例,多種蛋白酶已經(jīng)作為反應(yīng)催化劑獲得了廣泛應(yīng)用。其中很多種都是人類近年才發(fā)現(xiàn)的新型蛋白質(zhì),它們個個身懷絕技,有些能夠分解原油、有些能夠降解塑料。對于這些蛋白質(zhì)的結(jié)構(gòu)和催化機(jī)理,我們目前都只有非常初步的認(rèn)識,AI無疑將大大加速相關(guān)研究的進(jìn)展。

        有趣的是,在聽聞AlphaFold解決了蛋白質(zhì)折疊問題的消息后,很多人調(diào)侃說,結(jié)構(gòu)生物學(xué)家以后要失業(yè)了。不過事實上,AlphaFold只是為結(jié)構(gòu)生物學(xué)家們提供了獲得蛋白質(zhì)結(jié)構(gòu)的一種手段,正如傳統(tǒng)的核磁共振、X射線衍射和冷凍電鏡方法一樣。這些特定結(jié)構(gòu)在生命體中如何發(fā)揮功能,才是更需要結(jié)構(gòu)生物學(xué)家們回答的問題。

        如著名結(jié)構(gòu)生物學(xué)家顏寧所言,結(jié)構(gòu)只是用來做出生物學(xué)發(fā)現(xiàn)的手段。比如弄清楚剪切體這個龐然大物的結(jié)構(gòu)之后,由此揭示出“幾百個蛋白質(zhì)如眾星捧月般簇?fù)碇鳵NA,一剪子一鉤針地剪接DNA序列中的內(nèi)含子和外顯子”,這個過程才是真正的神奇。

        除了預(yù)測蛋白質(zhì)結(jié)構(gòu),Alpha-Fold也將促進(jìn)蛋白質(zhì)設(shè)計的發(fā)展。在未來,AI或許可以幫助人類根據(jù)自身獨(dú)特需要,創(chuàng)造出自然界中原本不存在的蛋白質(zhì)。屆時,必將是生命科學(xué)的一次飛躍。

        (作者為大阪大學(xué)免疫前沿研究中心研究員。特約“十點科學(xué)”微信公眾號供稿)

        (原標(biāo)題:人工智能如何預(yù)測蛋白質(zhì)結(jié)構(gòu))

        免責(zé)聲明:市場有風(fēng)險,選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。

        最新推薦