化合物的生物活性篩選是現代藥物研發中關鍵的一環,其主要目的是在大量候選化合物中發現針對某種藥物靶點具有活性的分子。傳統的活性篩選方法需要合成大量化合物用以進行生物實驗,整個流程的成本高、周期長、成功率低。而通過AI技術進行藥物的虛擬篩選有望代替傳統的活性篩選方法,加速中間步驟從而大幅度降低研發成本。
國際權威榜單Open Graph Benchmark(OGB)上的HIV和PCBA數據集包括多種生物活性實驗。其中,HIV數據集關注不同化合物是否能夠抑制HIV病毒在細胞內的復制,PCBA數據集關注不同化合物針對100多種疾病靶點的有效性。以其中能增強功能性SMN2蛋白表達的化合物為例,這些化合物能夠改善因SMN1蛋白突變失效引起的脊髓肌肉萎縮。 成功預測化合物這類性質對于發現針對多種疾病的有效藥物具有重要意義。
近日,飛槳在OGB該兩項分子性質預測榜單登上榜首,在AI藥物發現領域取得了新的技術突破。
飛槳登頂OGB分子性質預測數據集HIV和PCBA
基于飛槳能力實現分子性質預測
飛槳基于圖學習框架PGL,使用深度圖神經網絡(GNN),配合生物計算平臺螺旋槳PaddleHelix對藥物發現領域的理解,設計自監督學習任務學習化合物分子表示,并應用到分子性質預測中。核心技術包括:
分子表示學習為了將化合物分子作為圖神經網絡方法的輸入,需要首先將化合物分子特征化。OGB已經針對每個化合物提供了一系列基于圖結構的結點和邊的特征,可以對應到化合物的原子和化學鍵,但這些特征都較為微觀,無法表示化合物分子的宏觀化學特性。飛槳通過表示學習的方法,首次將分子的宏觀化學特性(官能團、分子指紋等信息)和圖神經網絡相結合,取得了融合宏觀化學特征的分子表示,并利用這個分子表示取得了ogbg-molhiv的榜首。
圖學習技術APPNP是基于個性化PageRank改進的特征傳播算法,通過迭代的方式來近似Personal PageRank的解析解。APPNP算法不引入額外的模型參數,能夠很好地調節局部信息和多階鄰居關系。飛槳通過結合GINE plus和APPNP技術,在不引入額外的模型參數下,獲得更好的模型表達能力,并取得ogbg-molpcba榜首。
飛槳圖學習框架PGL
百度深度學習平臺飛槳PaddlePaddle開源圖學習框架PGL v2.0版本,全面支持動態圖機制,可支持百億規模大圖,用戶可以通過PGL實現高效而又滿足工業應用需求的圖神經網絡。PGL支持的百度內外部業務也是遍地開花,全面覆蓋推薦系統、搜索引擎、智慧金融、智能地圖、安全風控、生物醫藥等場景。
生物計算螺旋槳PaddleHelix
螺旋槳PaddleHelix是基于百度深度學習平臺飛槳的生物計算平臺。提供了包括RNA二級結構預測、大規模分子和蛋白質表示學習、藥物靶點親和力預測、ADMET成藥性預測等,在新藥研發和疫苗設計環節具有廣闊應用前景的技術能力。
螺旋槳PaddleHelix可以幫助生物學、藥物化學、計算機交叉學科背景的學習者、研究者和合作伙伴更便利地構建AI算法模型。螺旋槳PaddleHelix生物計算平臺將保持開源開放原則,與合作伙伴共建共享,未來形成一套完整的面向行業的生物計算生態和服務。(辛文)
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。