四大頂級專家談AlphaFold2：記錄、風向與學術思考（上篇）

本文作者：李雨晨

2020-12-16 10:28

導語：AlphaFold2的勝利就像是一場接力賽，往往是跑到最后一棒的人會有更多的高光時刻。

盡管，距離Deepmind公司AlphaFold2的橫空出世，已經過去了兩周的時間，但是圍繞AlphaFold2的討論熱度依然不減。

AlphaFold2是否是完美無缺，如果不是，它的“勝利”具體體現在哪些項目上？AlphaFold2對結構生物學的影響有哪些，哪些方向能受益而加速突破？哪些方向會受到影響而淡出？學術研究者與企業工程人員該如何分工，進一步實現“產學融合”的高效轉化？

關于AlphaFold2，太多的問題需要解答。

近日，主題為“權威專家談AlphaFold：DeepMind到底突破了什么？”的圓桌論壇正式舉行。本次主題論壇由圖像計算與數字醫學國際研討會（ISICDM）主辦，雷鋒網、醫健AI掘金志協辦。

印第安納大學醫學院副院長、AIMBE Fellow黃昆教授擔任主持，密蘇里大學教授、AAAS/AIMBE Fellow許東教授、密歇根大學教授、DeLano獎得主和I-TASSER算法發明人張陽教授、芝加哥豐田計算技術研究所、斯隆獎得主許錦波教授共同參與討論。

在上篇中，幾位嘉賓共同回顧CASP競賽的歷史、AlphaFold2的技術細節、局限與意義；在下篇中，將著重分析AlphaFold2的產業應用前景、學術研究風向、藥物研發等“未來”話題。

圖像計算與數字醫學國際研討會（ISICDM）自2017年創辦以來，一直是醫工交叉的前沿陣地，圍繞圖像計算和數字醫學中的一些重要的理論、算法與應用問題進行學術討論，旨在促進電子信息（包括計算機、自動化與生物醫學工程）、數學和醫學等領域學者的交流與合作，截止至今，ISICDM共邀請到400余位大會報告及專題報告嘉賓。

在今年的ISICDM 2020上， “計算解剖學”創始人的Michael I.Miller教授，新加坡國家科學院院士、發展中國家科學院院士沈佐偉教授、瑞士工程科學院院士Michael Unser教授、美國國家發明家科學院院士王革教授等數十位嘉賓分別進行了主題演講。

以下是主題論壇的現場內容，雷鋒網做了不改變原意的編輯和整理

黃昆：請大家先談談自己對CASP競賽的了解，包括其目的、歷史。

張陽：CASP全稱是Critical Assessment of protein Structure Prediction，它是一個關于蛋白質結構預測的競賽。在CASP舉辦之前，蛋白質結構預測一直是生命科學里的一個重要問題。每年都會有人發表大量的論文，有些論文甚至宣稱解決了這個問題。

但是，蛋白質結構預測是一個基于計算機程序預測的問題，如果沒有實驗的介入，沒法斷定這些宣稱是否真的正確。

所以，在1994年，馬里蘭大學的John Moult教授和同事就發起并組織了這么一個比賽。每年的夏天，由組織者收集大約一百個左右蛋白質的序列，沒有任何人知道他們的三級結構。然后讓做蛋白質結構預測的人來利用計算機程序來預測他們的結構，同時讓實驗結構生物學家的人利用X-光衍射，核磁共振，或者冷凍電鏡的方法，把這些蛋白質的結構解析出來。

最后，由獨立的科學家團隊把計算機預測的模型和實驗的結構對照，分析不同計算機算法的預測結果。因為是雙盲的預測，這些結果可以客觀真實的反映結構預測的精度。

CASP組織者一直是在淡化競賽的概念，他們一直把它稱作CASP實驗。其目的是評價目前最領先的技術，找出現存的問題，規范和指導領域的發展。

但是，每個參賽者都很認真對待。這個比賽一般是5月份開始，八月份結束，很多實驗室在比賽期間，停下一切事務，全力參賽。這應該是生物學領域第一次舉辦這樣的比賽，也是最重要和名氣最大的科學競賽。后來很多學科和專業都模仿這種方式，舉辦各種科學競賽。

黃昆：這次CASP中AlphaFold的勝利體現在哪些項目上？除了AlphaFold2之外，這次CASP競賽還有哪些亮點？

張陽：過去二十多年來，蛋白質結構預測這個領域一直在不斷進步。特別是最近五，六年，因為共同演化，接觸圖預測，以及深度機器學習技術的引進，很多實驗室的算法精度都有很大的提升。這些提升是學術界內部的提升，和谷歌的AlphaFold沒有關系。

就拿我們實驗室的I-TASSER自動服務器來講，在兩年前CASP13的時候，它預測非同源蛋白結構的數目比六年前CASP11的時候增長了五倍。在這次CASP14中，它的預測精度和CASP13相比，也有很大增加。

但是這次AlphaFold2比上次的AlphaFold增加的幅度更大。他們大約有一半的蛋白質，其單結構域結構的GDT-TS score都大于0.9，也就是說接近實驗測量的精度。

我在另外一個場合引用谷歌的宣傳材料稱，他們有2/3的蛋白達到了這個精度，但是后來我自己做了結構比對和檢查，發現除掉水分之后，這個數字應該是51%（如果考慮第一個模型）；如果考慮五個模型中最好的模型，有58%的結構域達到這個精度。但是這個結果依然非常驚艷！

為什么如此驚艷？蛋白質結構預測一般分成基于模板和從頭預測兩種算法。如果數據庫中有同源的結構存在，大家利用基于模板的算法，都可以做的很好。

但是如果結構數據庫中沒有同源蛋白存在，純粹基于序列從頭預測，精度會大幅度下降。但是AlphaFold2，它就用一種算法---深度機器學習，對于從頭預測的蛋白質做的幾乎和基于模板的蛋白質一樣好，這就是它讓人震驚的地方。

和傳統的結構預測方法相比，這個增加幅度簡直難以置信。因為這是CASP雙盲測試的檢測結果，我們沒有選擇，只有相信它。

現在我講一個小故事。這次CASP比賽，我們實驗室也有幸被邀請在CASP會議上做報告（包括谷歌和Baker實驗室，一共有三個團隊被邀請做結構預測報告），所以我們大概在CASP會議之前的三個星期，拿到了各團隊參賽的數據。

當然為了新聞的要求，CASP要求在12/1號開會之前，不得向外界泄露。我當時看了結果之后，雖然有一些心理準備，但是仍然驚訝的目瞪口呆。我給Moult回信，表示對結果非常震驚。

他回信說，自從六月份他們開始看到并評估第一個目標蛋白以來，整個CASP組織團隊就開始對結果完全無語了，他用的一個詞是“speechless”。你可以想象整個領域對這個結果的驚訝程度。

黃昆：我想請教一下，蛋白質折疊從計算的角度來講，具體的難點是什么？它的意義在哪里？另外AlphaFold2的算法，取得了哪些技術上的突破？到底都利用了哪些前人的工作？

許東：蛋白質折疊對于理解基因的功能、疾病的原理、制藥都是非常重要的。

幾十年前，大家就在探討這個領域里被稱作Levinthal的悖論。

第一，一般蛋白的平均長度大概在300個氨基酸，假設每個氨基酸的可能構象有10個，所有的可能性就是10的300次方，數據量非常巨大。即使是全球最好的計算資源價值，也不能處理這么多的可能性。

第二，蛋白質折疊靠的是能量，能量實際上非常復雜。從底層來講，它是基于量子力學的過程，即使走到經典力學的過程，把它變成一個函數，這個函數非常復雜。要優化這個函數，沒有什么可能。

第三，這幾十年，我們確實積累了大量的實驗結構。現在數據庫里大概有17萬個已知結構，聽起來數量龐大，但實際上很多蛋白的序列與結構是類似的，沒有那么多獨特的結構、序列。

深度學習是屬于“數據饑餓”的方法，喂它多少數據都不一定夠。過去通過這個方法，也不能很系統地得出準確的結果。即使在某一個蛋白質預測上做得非常好，但是不能保證全都做得很好。

這次的AlphaFold2，我認為最主要的是實現了魯棒性，能夠得到很穩定、很好的結果。過去從來沒有團隊做到。從技術上講，我們有一個打分機制，基于多少個氨基酸預測到位來評分。一般蛋白質預測需要達到90%及以上的準確率，才能算預測得比較有用。

這次AlphaFold2已經達到了平均92.4，幾乎和實驗結果差不多。今后，AlphaFold預測出來的結果，就可以和實驗，例如MR、冷凍電鏡的方法相媲美。

這個現象與AI閱片一樣，雖然不能完全代替醫生的診斷方式，但是可以對人類醫生的一些漏診進行補充。

當然，AlphaFold2的成果不代表所有問題都得到解決，但是第一次基本上系統地解決了蛋白結構預測的問題。我非常驚訝的就是它的精度，不光是蛋白質的主鏈，在被稱作側鏈的原子層面，預測也非常到位、準確，這是我們很多人想不到的。

還有哪些問題沒解決？

其中有一些非常難的蛋白，或者數據庫里沒有這樣的結構，或者結構跟現有數據庫里其他結構很像，但是基本上沒有任何相似的序列，被稱之為孤兒基因。這種情況非常難預測，分數大概能達到87分左右。

另外一點，AlphaFold2今后能否全自動做蛋白質結構預測？AlphaFold2的贏面不是在全自動的大類里，還需要手工進行。能否真正實現全自動，或者算得足夠快，讓很多人都能用上，還需要進一步探索。

第三，蛋白有很多種類（多聚體），例如同一種蛋白形成2-4個多聚體，或者是不一樣的蛋白形成1個多聚體。這個問題還沒有真正的得以解決。此外，蛋白經常被修飾，比如糖化、磷酸化。現在設計的新冠疫苗，在重要的蛋白上經常有糖化的修飾，對疫苗設計都是很大的障礙。對于那些有修飾的蛋白能否預測得很準確，目前也不是很清楚。

實際上，蛋白在不同環境下的構象并不相同，比如酸堿度的高低，含鹽的多少等因素，給蛋白質的在生物體內的精準預測制造了非常大的難度。

話說回來，很多重大科學問題宣布解決時，并不意味著所有問題得到解決，只是大的問題得到解決，其它小問題可以慢慢解決。

這次AlphaFold2的成果，很多人功不可沒。我們也很興奮，幫助這個領域增加了很多的曝光度。這就像是一場接力賽，往往是跑到最后一棒的人會有更多的高光時刻。然而，這個接力賽確實需要很多人共同參與才能完成。

在蛋白質結構研究的50年過程中，很多華人科學家做出了非常重要的貢獻，徐鷹教授、周耀旗教授、李明教授、許錦波教授、張陽教授、卜東波教授和我們系里的程建林教授等在這個領域里都做了非常好的工作。

其中最值得介紹的就是我們的兩位嘉賓。

首先就是張陽教授，從2006年開始，常年把持CASP自動預測類的第一名，包括今年自動類第一名仍然是他們團隊，他們的服務器被151個國家和地區使用，有14萬個以上的用戶，預測了五十幾萬個蛋白，張教授還有很多蛋白方面的服務器，并且他在15年前就指出，完全通過數據進行搜索以解決蛋白結構的理論上的可能，做了很多的數據模擬，我覺得這些工作都很具有前瞻性。

許錦波教授在氨基酸的距離預測上，真正將蛋白質預測的問題提升了一個臺階。

其實，AlphaFold2對蛋白結構預測中很重要的一點，是對蛋白質距離預測的過程。這個過程中，許錦波教授是第一個認識到氨基酸之間的距離預測，不能一對一對預測，要所有對一起預測。這就是所謂的end-to-end——端到端模型。

這次，AlphaFold2所使用的也是端到端模型，根據序列的特征直接輸出了三維結構。許錦波教授是第一個真正成功利用深度學習把這件事（距離）搞定的。CASP13的時，AlphaFold1也是用許錦波教授的方法來進行研究。

張陽：我稍微補充一下。AlphaFold是不是解決了蛋白質結構預測的問題？我覺得還有待商榷。

首先，怎么定義蛋白質結構預測的問題？

蛋白質結構預測包含三級結構和四級結構預測。其中三級結構是指單鏈，四級結構是指多鏈蛋白質的結構預測。這次AlphaFold參加的主要是三級結構預測。即使是在三級結構預測，CASP評估的也只是單結構域的預測結構。

自然界中一個功能蛋白質鏈往往也包含多個結構域，這些結構域之間有復雜的相互作用。這些結構域之間或者蛋白質鏈之間的相互作用都屬于蛋白質結構預測的范疇，都具有重要的生物學意義。但是CASP對這種多結構域的復雜構型并沒有做評估，主要是多年以來我們沒有好的辦法預測它們。

所以，嚴格意義上講，AlphaFold2接近于解決了單結構域的蛋白質結構預測問題，預測精度很高。很多媒體中提到它的中位數值是0.92，即大致有一半的模型是超過0.9，接近或者達到實驗的精度。也就是說，還有接近一半的蛋白質預測沒有達到這個精度。因此，要完全解決蛋白質結構預測的問題，仍然需要很多工作。

提到華人教授的貢獻，許東教授是這個領域的前輩。在進入這個領域之前，我就已經知道許東老師和徐鷹老師他們在20年前開發的Prospect算法，我的實驗室現在還在運用他們的程序。

另外，我們也常常用DomainParser做蛋白質結構域的分割，這個程序也是許東教授他們在20年前開發的。現在，許老師和徐老師的研究興趣可能轉向了其他方面，但他們在這個領域里的努力是非常可圈可點的。

黃昆：AlphaFold2算法的成功主要得益于機器學習，深度學習中的哪些重要技術和突破（例如注意力機制）？如果僅靠增加算力能否進一步突破？AlphaFold2算法當前的局限性在哪里？可能有哪些改進空間？

許錦波：進行蛋白質結構預測這方面的研究，我是跟徐鷹老師和許東老師學的。雖然他們不是我的導師，但是讀博士時，我就在讀他們的prospect代碼，開始學習這個方向。

就如許東教授說，AlphaFold2的很多算法靈感都是基于以前的工作。我先簡單回顧一下經典的算法。

最早是用蒙特卡洛采樣（Monte Carlo Simulation），隨機產生多種可能的形狀，然后用一個能量函數去選擇，覺得哪個形狀更有可能，就選擇能量最小的形狀。這是早期的算法。

但這個算法的問題在于，稍微大點的蛋白就處理不了了，即使后來加上了片段組裝 (fragment assembly)，也還是處理不了特別大的蛋白，并且需要很多計算資源才能做這件事情。

2010年之后，這個領域里的共進化數據變得很有用，主要是因為測序變得非常容易，產生了大量的蛋白序列。雖然這些蛋白序列沒有結構，但是沒有關系。我們可以通過研究它們的進化關系，把它們跟結構的關系預測出來，這叫共進化分析方法。這種方法取得了一定成功，但是對很多沒有結構的蛋白質并沒有很好的效果。

其中一個原因是，很多蛋白還沒有那么多同源序列，需要有很多同源序列才能做得比較準確。通常來說，共進化分析方法需要跟蒙特卡洛采樣結合使用，效果才會比較好。

2012年，深度學習開始慢慢進入這個領域，但那個時候并沒有成功。有些研究者嘗試了一些非常簡單的深度學習方法，比如說DBN方法，但并沒有表現出任何好的效果。

直到2016年我們引入卷積殘差神經網絡后，我們才真正發現，深度學習可以把這個問題做得很好。通過卷積殘差神經網絡，可以將共進化信息利用得很好，還是一樣用同源信息。現在所有成功的方法，都是依靠同源信息。那個時候我們就發現可以把氨基酸在空間中的關系（接觸圖或距離）預測得比較準。

2018年之后，很多成功的組都是要么間接、要么直接地使用這種卷積神經網絡跟共進化信息結合起來的方法。

發展到這個地步，我們就發現完全可以拋棄蒙特卡洛采樣。當然，用蒙特卡洛采樣可能會稍微好一點，但差別不是很大，這樣可以大大節省計算資源。只是在做訓練的時候還是需要那么幾塊GPU，這樣才能比較快地將模型訓練好。

2018年，DeepMind也使用了卷積殘差神經網絡的方法。他們的團隊，無論是人才資源還是計算資源都比其他組要多一些，那個時候的效果也挺好。

AlphaFold2做得比2018年要好很多。他們確實是發展了一些新的方法。例如最新的算法——注意力機制。他們引入了一個像Transformer之類的神經網絡。Transformer翻譯為中文就是“變形金剛”，是自然語言處理里一個非常火熱的神經網絡模型。Transformer的主要作用還是用來預測蛋白質里氨基酸之間的相互關系。

另外，他們這次不直接使用氨基酸之間的距離，而是利用了另一個神經網絡從Transformer的輸出直接產生原子的三維坐標。

要產生三維坐標，就要去處理蛋白質空間的旋轉問題。

由于蛋白質空間可以旋轉，訓練產生的結構跟正式結構比較，就需要處理旋轉或者平移的問題。當然，可以將蛋白質中心都設為原點，平移的問題可以不用管，但是旋轉的問題要處理。

他們應當是利用了一個網絡同時預測旋轉和三維坐標。這兩個網絡都是比較新的技術，這是他們的創新之處。有幾個研究組包括我們自己也在研究Transformer在這個問題上的應用，也有些小組在研究怎么直接產生三維坐標，然而DeepMind是第一個找到正確方法的。但是我不認為僅僅靠這兩個算法就能夠做到現在這種程度，還有很多工程問題。

現在，所有的算法都是依靠同源序列，能不能產生非常好的同源序列非常關鍵。AlphaFold2的團隊大概有30個人，里面專門有專家負責搜索同源序列，這項工作非常重要。因為如果同源序列找不好，結果也不可能很好。

因此，AlphaFold2的團隊的成功之處在于，可以把所有重要的工作結合得非常好。

當然，算力也很重要。雖然他們宣稱訓練一個模型只需要一兩百個GPU，訓練兩個禮拜就可以了。事實上，在找到正確的方法之前，要做無數的實驗、測試不同的策略。做實驗需要非常多的機器，這樣可以同時測試幾個不同的想法。

30人的團隊肯定不止有一個想法，這些想法的測試需要非常多的計算資源，這是學術界比不了的。30多人可以在一起互相討論，看誰的想法好，很快就可以知道哪一種策略是成功的。學術界通常是一個教授帶一個小組，大部分都是學生，最多有一兩個博士后，不可能得到那么快的反饋。

這是學術界的一個劣勢。

今后有沒有可能有更好的算法？我相信應該會有，只是說好的程度到底有多少。AlphaFold2的團隊已經做得非常好，提升空間還有，但是不像以前那么大。

例如，學術界能不能訓練出一個模型，不需要那么多計算資源，就能把結構預測出來？能不能找到一個模型簡單、但效果差不多的模型?

因此，未來的工作還是有進步空間，但是這個進步空間是從1到10，還是從0到1？從0到1的可能性不太大，也就是說，非常重大的原創性的突破可能很難，但還是有很多完善性的工作。

順帶一提，雖然很多人認為蛋白質結構預測的問題幾乎被解決了，但要看怎么定義蛋白質結構預測：現在所有的方法都是基于同源序列，沒有同源序列，大部分情況下都不可能做得那么好。

在自然界中，蛋白質折疊是不需要看有沒有同源序列的，它是單獨地折疊起來的。

能不能設計出一種算法，不需要通過使用同源序列就能把蛋白質結構預測出來，這是一個非常重要的問題，也是一個非常難的問題，這個問題有很多嘗試的空間。

許東：的確，AlphaFold有全明星團隊，有無窮的計算資源，而且注意力機制和Transformer就是他們自己提出來的，這是他們的本領，當然會做得比別人更順手。但即使這樣，我認為AlphaFold2是有實質性創新的，并不是簡單地在工程上做得更好。

許錦波教授講到的Transforme、end-to-end，這些不是小的創新。所謂端到端的預測，能夠跨越這些中間過程。

AlphaFold1跟AlphaGo1差不多，基本上是用這個領域里的算法做，就像AlphaGo用經典的棋譜來訓練。而AlphaFold2到不了AlphaGo2的水平，但已經到了AlphaGo1.5的水準。

什么意思？AlphaFold2跨過了預測氨基酸空間距離的過程，直接預測坐標。很多人都想到這個問題，但目前實現的只有他們一家。

此外，AlphaFold2不僅能預測結構，還能預測可靠性。做序列比對的一個重要工具叫BLAST（全稱Basic Local Alignment Search Tool，即“基于局部比對算法的搜索工具”）。其重要突破在于，準確地說明對比的結果在生物學上有多靠譜。現在的AlphaFold2也能做到。

另外一點，AlphaFold2對構架進行了精美的調整，使用了一些迭代的機制。此前我們在做蛋白結構實驗時使用一種叫Multidimensional Scaling的方法，但是很長時間都無法成功，在改用迭代以后很快成功，他們把迭代做的非常好，

但是為什么目前達不到AlphaGo2.0的程度呢？AlphaFold2除了輸入蛋白質本身的序列，還需要到蛋白序列數據庫里尋找同源序列進行比對，推出進化關系來作為輸入，而AlphaGo2.0則不需要這類額外信息作為輸入。這是因為AlphaFold2和圍棋不一樣，圍棋可以通過無數次下棋比試來總結規律。

蛋白質結構只有17萬個，雖然看起來很大，但對機器學習來說非常有限。所以，AlphaFold2現在無法達到AlphaGo2.0的水平。今后，在達到這一水平后，一方面可以預測復雜的結果，另一方面會對蛋白折疊的路徑機理有更加深刻的了解。

（關注微信公眾號“醫健AI掘金志”，查看下篇精彩內容）雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

李雨晨

新智駕主編

專注蔚小理等造車新勢力的原創報道 |微信：Gru1993

發私信

當月熱門文章

我所知道的胡崢楠