來源:機器之心
生物學界最大的謎團之一,蛋白質(zhì)折疊問題被 AI 破解了。
CASP14 組織者、年近七旬的 UC Davis 科學家 Andriy Kryshtafovych 在大會上感嘆道,I wasn't sure that I would live long enough to see this(我活久見了) [ 1 ] 。
11 月 30 日,一條重磅消息引發(fā)了科技界所有人的關注:谷歌旗下人工智能技術公司 DeepMind 提出的深度學習算法「Alphafold」破解了出現(xiàn)五十年之久的蛋白質(zhì)分子折疊問題。
最新一代算法 Alphafold 2,現(xiàn)在已經(jīng)擁有了預測蛋白質(zhì) 3D 折疊形狀的能力,這一復雜的過程對于人們理解生命形成的機制至關重要。
DeepMind 重大科研突破的消息一出即被《Nature》、《Science》等科學雜志爭相報道,新成果也立刻獲得了桑達爾 · 皮查伊、伊隆 · 馬斯克等人的祝賀。
科學家們表示,Alphafold 的突破性研究成果將幫助科研人員弄清引發(fā)某些疾病的機制,并為設計藥物、農(nóng)作物增產(chǎn),以及可降解塑料的「超級酶」研發(fā)鋪平道路。
「這是該研究領域激動人心的一刻,」DeepMind 創(chuàng)始人、首席執(zhí)行官德米斯 · 哈薩比斯說道。「這些算法今天已經(jīng)足夠成熟強大,足以被應用于真正具有挑戰(zhàn)性的科學問題上了。」
蛋白質(zhì)對于生命至關重要,它們是由氨基酸鏈組成的大型復雜分子,其作用取決于自身獨特的 3D 結構。弄清蛋白質(zhì)折疊成何種形狀被稱為「蛋白質(zhì)折疊問題」。在過去 50 年里,蛋白質(zhì)折疊一直是生物學領域的重大挑戰(zhàn)。
DeepMind 的 AlphaFold 讓人類在這一問題上取得了重要突破。在今年的國際蛋白質(zhì)結構預測競賽 CASP 中,DeepMind 開發(fā)的 AlphaFold 最新版本擊敗了其他選手,在準確性方面比肩人類實驗結果,被認為是蛋白質(zhì)折疊問題的解決方案。這一突破證明了 AI 對于科學發(fā)現(xiàn),尤其是基礎科學研究的影響。
在兩年一次的 CASP 競賽中,各組爭先預測蛋白質(zhì)的 3D 結構。今年,AlphaFold 擊敗了所有其他小組,并在準確性方面與實驗結果相匹配。
對于不熟悉生物領域的人來說,CASP 的大名可能有些陌生—— CASP 全稱 The Critical Assessment of protein Structure Prediction,旨在對蛋白質(zhì)結構預測進行評估,被譽為蛋白質(zhì)結構預測的奧林匹克競賽。CASP 從 1994 年開始舉辦,每兩年一屆,目前正在進行的一屆是 11 月 30 日開始的 CASP14。
而 DeepMind 這一突破有什么影響?
用哥倫比亞大學計算生物學家 Mohammed AlQuraishi 在 Nature 文章中的話來說,「可以說這將對蛋白質(zhì)結構預測領域造成極大影響。我懷疑許多人會離開該領域,因為核心問題已經(jīng)解決。這是一流的科學突破,是我一生中最重要的科學成果之一。」
蛋白質(zhì)折疊問題
蛋白質(zhì)的形狀與它的功能密切相關,而預測蛋白質(zhì)結構對于理解其功能和工作原理至關重要。很多困擾全人類的重大問題(如尋找分解工業(yè)廢料的酶)基本上都與蛋白質(zhì)及其扮演的角色有關。
多年以來,蛋白質(zhì)結構一直是熱門的研究話題,研究者使用核磁共振、X 射線、冷凍電鏡等一系列實驗技術來檢測和確定蛋白質(zhì)結構。但這些方法往往依賴大量試錯和昂貴的設備,每種結構的研究都要花數(shù)年時間。
1972 年,美國科學家克 Christian Anfinsen 因「對核糖核酸酶的研究,特別是對其氨基酸序列與生物活性構象之間聯(lián)系的研究」獲得諾貝爾化學獎。在頒獎禮上,他提出了一個著名的假設:從理論上來說,蛋白質(zhì)的氨基酸序列應該可以完全決定其結構。這一假設引發(fā)了長達五十年的探索,即僅僅基于蛋白質(zhì)的一維氨基酸序列計算出其三維結構。
但這一思路的挑戰(zhàn)在于,在形成三維結構之前,蛋白質(zhì)的理論折疊方式是一個天文數(shù)字。1969 年,Cyrus Levinthal 指出,如果使用蠻力計算的方式來枚舉一種蛋白質(zhì)可能存在的構象,要花費的時間甚至比宇宙的年齡還要長。Levinthal 估計,一種蛋白質(zhì)大約存在 10^300 種可能構象。但在自然界中,蛋白質(zhì)會自發(fā)折疊,有些只需幾毫秒,這被稱為 Levinthal 悖論。
蛋白質(zhì)折疊問題解讀視頻請戳:
CASP 14 比賽最新結果:AlphaFold 中位 GDT 高達 92.4
CASP 競賽由 John Moult 和 Krzysztof Fidelis 兩位教授于 1994 年創(chuàng)立,每兩年進行一次盲審,以促進蛋白質(zhì)結構預測方面的新 SOTA 研究。
一直以來,CASP 選擇近期才經(jīng)過實驗確定的蛋白質(zhì)結構,作為參賽團隊測試其蛋白質(zhì)結構預測方法的目標(有些結構即使在評估時仍然處于待確定狀態(tài))。這些蛋白質(zhì)結構不會事先公布,參賽者也必須對其結構進行盲測,最后將預測結果與實驗數(shù)據(jù)進行對比。正是基于這種嚴苛的評估原則,CASP 一直被稱為預測技術評估方面的「黃金標準」。
CASP 衡量預測準確率的主要指標是 GDT(Global Distance Test),范圍從 0 到 100,可以理解為預測的氨基酸殘基在正確位置閾值距離內(nèi)的百分比。John Moult 教授表示,GDT 分數(shù)在 90 分左右,即可視為對人類實驗方法具備競爭力。
在剛剛公布的第 14 屆 CASP 評估結果中,DeepMind 的最新 AlphaFold 系統(tǒng)在所有預測目標中的中位 GDT 達到 92.4,意味其平均誤差大概為 1.6 埃(Angstrom),相當于一個原子的寬度(或 0.1 納米)。即使在難度最高的自由建模類別中,AlphaFold 的中位 GDT 也達到了 87.0。
歷屆 CASP 競賽自由建模類別中預測準確率中位數(shù)的提升情況,度量指標為 BEST-OF-5 GDT。
CASP 競賽自由建模類別中的兩個目標蛋白質(zhì)示例。AlphaFold 能夠預測出高度準確的蛋白質(zhì)結構。
這些令人振奮的結果開啟了生物學家使用計算結構預測作為科研主要工具的時代。DeepMind 提出的方法對于某些重要的蛋白質(zhì)類別尤其有用,例如膜蛋白(membrane protein)。膜蛋白很難結晶,因此很難通過實驗方法來確定其結構。
該計算工作代表了在蛋白質(zhì)折疊這一具備 50 年歷史的生物學問題上的驚人進展,比該領域人士成功預測蛋白質(zhì)折疊結構早了幾十年。我們將很興奮,它能從多個方面對生物學研究帶來基礎性改變。—— Venki Ramakrishnan 教授(諾貝爾獎得主,英國皇家學會會長)
DeepMind 這樣解決蛋白質(zhì)折疊問題
2018 年,DeepMind 團隊使用初始版 AlphaFold 參加 CASP13 比賽,取得了最高的準確率。之后,DeepMind 將 CASP13 方法和相關代碼一并發(fā)表在 Nature 上。而現(xiàn)在,DeepMind 團隊開發(fā)出新的深度學習架構,并使用該架構參加 CASP14 比賽,達到了空前的準確率水平。這些方法從生物學、物理學、機器學習,以及過去半個世紀眾多科學家在蛋白質(zhì)折疊領域的工作中汲取靈感。
我們可以把蛋白質(zhì)折疊看作一個「空間圖」,節(jié)點表示殘基(residue),邊則將殘基緊密連接起來。這個空間圖對于理解蛋白質(zhì)內(nèi)部的物理交互及其演化史至關重要。對于在 CASP14 比賽中使用的最新版 AlphaFold,DeepMind 團隊創(chuàng)建了一個基于注意力的神經(jīng)網(wǎng)絡系統(tǒng),并用端到端的方式進行訓練,以理解圖結構,同時基于其構建的隱式圖執(zhí)行推理。該方法使用進化相關序列、多序列比對(MSA)和氨基酸殘基對的表示來細化該圖。
通過迭代這一過程,該系統(tǒng)能夠較強地預測蛋白質(zhì)的底層物理結構,并在幾天內(nèi)確定高度準確的結構。此外,AlphaFold 還能使用內(nèi)部置信度度量指標判斷預測的每個蛋白質(zhì)結構中哪一部分比較可靠。
DeepMind 團隊在公開數(shù)據(jù)上訓練這一系統(tǒng),這些數(shù)據(jù)來自蛋白質(zhì)結構數(shù)據(jù)庫(PDB)和包含未知結構蛋白質(zhì)序列的大型數(shù)據(jù)庫,共包括約 170,000 個蛋白質(zhì)結構。該系統(tǒng)使用約 128 個 TPUv3 內(nèi)核(相當于 100-200 個 GPU)運行數(shù)周,與現(xiàn)今機器學習領域出現(xiàn)的大型 SOTA 模型相比,該系統(tǒng)所用算力相對較少。
此外,DeepMind 團隊透露,他們準備在適當?shù)臅r候?qū)⑦@一 AlphaFold 新系統(tǒng)相關論文提交至同行評審期刊。
AlphaFold 主要神經(jīng)網(wǎng)絡模型架構概覽。該模型基于進化相關的蛋白質(zhì)序列和氨基酸殘基對運行,迭代地在二者的表示之間傳遞信息,從而生成蛋白質(zhì)結構。
對現(xiàn)實世界的潛在影響
「讓 AI 突破幫助人們進一步理解基礎科學問題」,經(jīng)過 4 年的研究攻關,現(xiàn)在 AlphaFold 正在逐步實現(xiàn) DeepMind 初創(chuàng)時的愿景,在藥物設計和環(huán)境可持續(xù)性等領域都產(chǎn)生了重要的影響。
馬克斯 · 普朗克演化生物學研究所所長,CASP 評估員 Andrei Lupas 教授表示:「AlphaFold 的精確模型讓我們解決了近十年來被困擾的蛋白質(zhì)結構,重新啟動關于信號如何跨細胞膜傳輸?shù)难芯俊!?/p>
DeepMind 表示愿與其他研究者合作,以進一步了解 AlphaFold 在未來幾年的潛力。除了作用于經(jīng)過同行評審的論文以外,DeepMind 還在探索如何以最佳的可擴展方式為系統(tǒng)提供更廣泛的訪問可能。
同時,DeepMind 的研究者還研究了蛋白質(zhì)結構預測如何幫助人們理解一些特殊的疾病。例如,通過幫助識別存在故障的蛋白質(zhì),并推斷其相互作用的方式,來理解一些疾病的原理。這些信息能夠讓藥物開發(fā)更加精確,從而補充現(xiàn)有的實驗方法,并更快找到更有希望的治療方法。
AlphaFold 是十分卓越的,它在預測結構蛋白質(zhì)的速度和精度上有著驚人的表現(xiàn)。這一飛躍證明了計算方法對于生物學中的轉(zhuǎn)換研究,加速藥物研發(fā)過程都具有廣闊的前景。
同時許多證據(jù)也表明,蛋白質(zhì)結構預測在未來的大流行應對上是有用的。今年早些時候,DeepMind 使用 AlphaFold 預測了包括 ORF3a 在內(nèi)的幾種未知新冠病毒蛋白質(zhì)結構。在 CASP14 中,AlphaFold 預測了另一種冠狀病毒蛋白質(zhì) ORF8 的結構。目前,實驗人員已經(jīng)證實了 ORF3a 和 ORF8 的結構。盡管具有挑戰(zhàn)性,并且相關序列很少,但與實驗確定的結構相比,AlphaFold 在兩種預測上都獲得了較高的準確率。
除了加速對已知疾病的了解,AlphaFold 還具備很多令人興奮的技術潛力:探索數(shù)億個目前還沒有模型的數(shù)億蛋白質(zhì),以及未知生物的廣闊領域。由于 DNA 指定了構成蛋白質(zhì)結構的氨基酸序列,基因組學革命使大規(guī)模閱讀自然界的蛋白質(zhì)序列成為可能——在通用蛋白質(zhì)數(shù)據(jù)庫(UniProt)中有 1.8 億個蛋白質(zhì)序列。相比之下,考慮到從序列到結構所需的實驗工作,蛋白質(zhì)數(shù)據(jù)庫(PDB)中只有大約 170000 個蛋白質(zhì)結構。在未確定的蛋白質(zhì)中可能有一些新的和未確定的功能——就像望遠鏡幫助人類更深入的觀察未知宇宙一樣,像 AlphaFold 這樣的技術可以幫助找到未確定的蛋白質(zhì)結構。
開創(chuàng)新的可能
AlphaFold 是 DeepMind 迄今為止取得的最重要進展之一,但隨著后續(xù)科學研究的開展,依然有很多問題尚待解決。DeepMind 預測的結構并非全部都是完美的。還有很多要學習的地方,包括多蛋白如何形成復合體,如何與 DNA、RNA 或者小分子交互,以及如何確定所有氨基酸側(cè)鏈的精確位置。此外,在與他方合作的過程中,還需要學習如何以最好的方式將這些科學發(fā)現(xiàn)應用在新藥開發(fā)以及環(huán)境管理方式等諸多方面。
對于所有致力于科學領域中計算和機器學習方法的人而言,像 AlphaFold 這樣的系統(tǒng)彰顯了 AI 作為基礎探索輔助工具的驚人潛力。正如 50 年前 Anfinsen 提出的遠超當時科研能力所及的挑戰(zhàn)一樣,這個世界依然有諸多未知的方面。
DeepMind 取得的這一進展令人們更加堅信,AI 將成為人類擴展科學知識邊界的最有用工具之一,同時也期待未來多年的艱苦工作能夠帶來更偉大的發(fā)現(xiàn)。