包云崗
日前,谷歌旗下的DeepMind公司在《自然》上發(fā)表論文,宣布使用其開發(fā)的人工智能程序AlphaFold2預測了人類98.5%的蛋白質,并決定公開AlphaFold2的源代碼,免費開源有關數(shù)據(jù)集,供全世界科研人員使用。這一突破性進展立刻受到全世界的廣泛關注,中國科學院院士施一公認為AlphaFold2是“人工智能對科學領域最大的一次貢獻,也是人類在21世紀取得的最重要的科學突破之一”。
那么,AlphaFold算基礎研究嗎?
對此,中國工程院院士李國杰將AlphaFold歸為工程科學技術——“工程科學技術不只是工具,也不僅僅是基礎研究成果的應用,而是在基礎研究中可以發(fā)揮巨大作用的重要組成部分”。
筆者對于李國杰的這個論述特別有共鳴,同時個人對基礎研究有以下幾個觀點,僅為拋磚引玉。
選擇合適的“基礎研究”的定義
科研有其自身的規(guī)律與法則,如果不按規(guī)律辦事,就會事倍功半。那么,基礎研究有什么規(guī)律?事實上,對于基礎研究不同的定義反映了不同角度的認知,對應的具體實施方式也不同。總的來說,過去幾十年主要有兩種對基礎研究的定義。
其一,VannevarBush在線性模型下定義基礎研究和應用研究,這種模式把基礎研究看作一個知識儲備池,是技術進步的源泉。在這種定義下,基礎研究的作用是產(chǎn)生知識,不需要考慮和具體技術的關系,因此在實施層面,“廣撒網(wǎng)”可能是最有效的產(chǎn)生多樣化知識的方式。
其二,Donald E.Stokes通過四個象限來定義不同的研究類型,Stokes把基礎研究分為純粹基礎研究(玻爾象限)與“由應用驅動的”基礎研究(巴斯德象限)。在實施層面,波爾象限和線性模型下的基礎研究基本一致。而巴斯德象限中,要用尖端的基礎科學研究來解決迫切、強烈且巨大的現(xiàn)實需求;在實踐時,通過解決實際問題“倒逼”科研人員把一些應用問題的底層原理搞清楚。
筆者更青睞Stokes的四象限模型。在筆者看來,“把問題的底層原理搞清楚”就是基礎研究。其實波爾象限與巴斯德象限在具體科研實踐時是一樣的,就是“把問題的底層原理搞清楚”,只是問題的來源有所不同而已。
波爾象限的問題主要來自學科自身,如為什么會有量子糾纏現(xiàn)象;而巴斯德象限的問題主要來自現(xiàn)實應用,如牛奶如何保鮮。從“把問題的底層原理搞清楚”這個角度來看,只要能提出一些未解的問題,那就有潛力做出好的基礎研究工作。
要高度重視自研科研基礎設施
我們可能都有一個體會,科技攻關時“第一次”往往特別困難,比如第一架飛機、第一顆原子彈、第一顆人造衛(wèi)星、第一款CPU、第一次火星登陸等。哪怕曾經(jīng)有其他國家實現(xiàn)過,另一個國家要實現(xiàn)“第一次”依然很艱難。
這主要因為這些“第一次”輸出的不僅僅是一款原型系統(tǒng),還包含背后一套研制該原型系統(tǒng)的技術流程以及相應的平臺、材料、試劑、設備、儀器等,也就是科研基礎設施。這些科研基礎設施的作用正是“把問題的底層原理搞清楚”,比如,為研制飛機建設的風洞,研制CPU需要的高精度仿真器和模擬器。即使物理、化學、天文等領域的基礎研究,現(xiàn)在也離不開各種尖端設備和儀器,像研究核聚變的托卡馬克裝置、研究天文的望遠鏡等。
筆者從事的CPU芯片設計,被很多人看作是純粹的工程技術,認為這里面沒有基礎研究。但筆者并不認同。
舉個例子,蘋果最近推出的M1處理器性能甚至超越Intel的桌面處理器,這得益于M1采用了約600項ROB,這完全顛覆了傳統(tǒng)CPU架構設計人員的觀念,因為以往CPU的ROB一般都不超過200項。也許用反向工程思維,可以很快做出一個也具有600項ROB的CPU架構設計來。但是,蘋果為什么這么設計?為什么是600項ROB,而不是400項,或者800項?反向工程只是工程技術,但如果能把“問題的底層原理搞清楚”,那就是CPU架構設計領域的基礎研究。
要搞清楚底層原理并不容易,這需要一整套CPU架構設計基礎設施的支撐(程序特征分析技術、設計空間探索技術、高精度模擬器、系統(tǒng)仿真技術、驗證技術等),還需要對大量程序特征進行分析,需要收集大量原始數(shù)據(jù),需要大量細致的量化分析,需要大量的模擬仿真……
某種程度上,相較于原型系統(tǒng),平臺/材料/試劑/設備/儀器等科研基礎設施是更重要的輸出。只有具備這些,才能不斷深入探索各種現(xiàn)象的底層原理,才能支持后續(xù)的迭代優(yōu)化,同時才能持續(xù)培養(yǎng)人才。
基礎研究與工程開發(fā)相互交融
基礎研究和工程技術并不是簡單的二元對立。相反,在很多領域基礎研究和工程開發(fā)是交融在一起的。出現(xiàn)這種交融是因為很多研究所需要的科研基礎設施,如新平臺、新設備、新流程都需要工程投入。即使是探測引力波、希格斯粒子這樣的基礎研究,也需要工程投入研制儀器設備。一旦有了這類科研基礎設施,其他人開展科研就會容易很多。
美國基礎研究很強,其中一個原因在于有不少學者在大學和企業(yè)研究院里建設這些科研基礎設施。比如在CPU芯片設計領域,有GEM5模擬器、CACTI模型、FireSim仿真平臺等一系列基礎設施,這可以讓其他大學的學者更容易開展研究。因此,有一些學者認為基礎研究不需要工程,主要還是因為有人已經(jīng)幫他們把底層的科研基礎設施搭建完善,讓他們可以更容易地去做優(yōu)化,更容易發(fā)表論文。
美國的很多科技企業(yè)內部也會構建一套和學術界總體上打通的科研基礎設施(有開源共享的、有內部自研的)。將業(yè)務需求和內部數(shù)據(jù)導入到企業(yè)的科研基礎設施中,能很容易消化學術界產(chǎn)生的新想法,集成到企業(yè)的產(chǎn)品中。因此,打通的基礎設施加上人才流通,這是美國學術界—產(chǎn)業(yè)界形成“創(chuàng)新想法—得到應用—收集反饋—新的創(chuàng)新想法—得到新的應用”這個閉環(huán)的重要原因。
中國的學術界—產(chǎn)業(yè)界之間尚未形成這種高效的閉環(huán),大多數(shù)企業(yè)還沒有和學術界打通的科研基礎設施。所以對于中國學術界來說,更需要參與科研基礎設施的建設,尤其是和企業(yè)一起來補科研基礎設施的這一課。
基礎研究也需要管理與組織
雖然很多基礎研究是純理論探索,幾個人的小團隊甚至一個人便可開展,但也有很多基礎研究需要大團隊,需要管理與組織,例如探測希格斯粒子、觀測引力波等。
美國國防部高級研究計劃局(DARPA)資助了很多顛覆性創(chuàng)新項目。觀察DARPA項目的立項與執(zhí)行過程,我們可以看到一些共性特征:首先會暢想未來,設立激進的目標;科學地把激進目標分解為一系列子任務;制訂具體子任務的實施計劃,包括目標、時間節(jié)點等;子任務最后要集成到一個原型系統(tǒng)中。
“項目主管”會負責上述4個任務,具有絕對的項目決策權,同時也對項目負責,相當于抓總。大量實踐證明,這種科研組織管理模式具有很高的效率。
這種模式對基礎研究也有效。以清華大學類腦計算研究中心為例,該中心于2014年成立,成員來自清華大學不同院系。他們的研究模式類似DARPA,整個團隊圍繞“天機”類腦芯片開展全棧研究,并集成到自動駕駛自行車系統(tǒng)中,形成具有很好顯示度的科研成果,同時也把清華的類腦計算學科建立了起來。
回到本文開頭的問題:AlphaFold算基礎研究嗎?
根據(jù)本文的討論,我們可以得出如下結論:第一,AlphaFold研發(fā)過程中面臨很多未知的問題,把“問題的底層原理搞清楚”,需要基礎研究;第二,AlphaFold是蛋白質結構預測領域的科研基礎設施,它本身就屬于蛋白質結構預測領域基礎研究的一部分。
(作者系中國科學院計算技術研究所副所長、研究員)
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。