英國“深度思維”公司今年8月曾宣布,其開發的人工智能(AI)程序“阿爾法折疊”已預測出約100萬個物種的超過2億種蛋白質的結構,涵蓋科學界已編錄的幾乎每一種?,F在,元宇宙平臺公司(Meta)研究人員利用人工智能ESMFold預測了來自細菌、病毒和其他尚未被表征微生物的6億多種蛋白質的結構。
在最新研究中,Meta AI蛋白質團隊使用“大型語言模型”預測了這些蛋白質的結構。要構建能通過幾個字母或單詞預測文本的工具,離不開大型語言模型的基礎。語言模型通常需要大量文本進行訓練,為將其應用于蛋白質,研究團隊用已知的蛋白質序列訓練它們,這些已知蛋白質可由20個不同氨基酸組成的鏈來表達,每個氨基酸由一個字母表示。然后,ESMFold學會了用模糊的氨基酸比例“自動完成”蛋白質。
團隊負責人亞歷山大·里維斯表示,這些訓練讓ESMFold對包含蛋白質形狀信息的蛋白質序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一網絡能將這些了解到的信息與已知蛋白質結構和序列之間關系的信息結合,生成預測結構。
隨后,他們在一個數據庫上運用這一模型,該數據庫由來自土壤、海水、人類腸道、皮膚和其他微生物棲息地的“宏基因組”DNA組成,其中絕大多數DNA條目編碼潛在蛋白質,來自從未被培養過也不為人所知的生物體??傮w而言,ESMFold預測了超6.17億種蛋白質的結構,且只花了兩周時間。而“阿爾法折疊”預測一種結構可能需要幾分鐘。
團隊指出,ESMFold雖然不像“阿爾法折疊”那么準確,但在預測結構方面的速度要快60倍,這意味著他們可將結構預測擴展到更大的數據庫。
里維斯表示:“這些來自土壤、海水和人體的微生物分子是我們了解最少的結構,最新研究有助于我們更進一步洞悉生物學?!?/span>