使用CARBonAra進(jìn)行序列預(yù)測(cè)(示意圖)。圖片來(lái)源:瑞士洛桑聯(lián)邦理工學(xué)院
瑞士洛桑聯(lián)邦理工學(xué)院推出了一款名為CARBonAra的創(chuàng)新人工智能(AI)模型,該模型能夠依據(jù)不同分子環(huán)境中的主鏈結(jié)構(gòu)限制,精確預(yù)測(cè)蛋白質(zhì)序列,預(yù)示著蛋白質(zhì)工程以及醫(yī)學(xué)和生物技術(shù)等多個(gè)領(lǐng)域?qū)⒂瓉?lái)重要突破。這一研究成果已刊登在《自然·通訊》雜志的最新一期中。
CARBonAra的訓(xùn)練數(shù)據(jù)集包含約37萬(wàn)個(gè)亞基,此外還從蛋白質(zhì)數(shù)據(jù)庫(kù)中選取了10萬(wàn)個(gè)亞基用于驗(yàn)證,7萬(wàn)個(gè)亞基用于測(cè)試。
該模型基于團(tuán)隊(duì)之前開(kāi)發(fā)的蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)換器框架,利用幾何轉(zhuǎn)換器這一深度學(xué)習(xí)模型來(lái)處理點(diǎn)與點(diǎn)之間的空間關(guān)系(如原子坐標(biāo)),從而學(xué)習(xí)并預(yù)測(cè)復(fù)雜結(jié)構(gòu)。CARBonAra的一大特色是其對(duì)“上下文”的感知能力,尤其在提升序列恢復(fù)率方面表現(xiàn)出色。
當(dāng)CARBonAra納入分子“上下文”信息,如蛋白質(zhì)與其他蛋白質(zhì)、核酸、脂質(zhì)或離子之間的界面時(shí),其序列恢復(fù)率得到了顯著提高。
CARBonAra不僅在合成基準(zhǔn)測(cè)試中展現(xiàn)出卓越表現(xiàn),還通過(guò)實(shí)驗(yàn)驗(yàn)證證明了其在蛋白質(zhì)工程中的靈活性和準(zhǔn)確性,為未來(lái)藥物發(fā)現(xiàn)提供了新的工具。其在酶工程中的成功應(yīng)用也顯示出巨大的工業(yè)應(yīng)用潛力。