AI 發現16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

本文作者：王軼群

2024-10-15 15:18

導語：諾獎、頂刊，化學、物理、生物，AI for Science 火了。

近期，AI for Science 領域的驚喜不斷，持續在物理、化學、生物領域開花結果。

不僅諾貝爾物理和化學獎雙雙頒給 AI 領域的科學家，阿里云與中山大學的科研也帶來了RNA病毒尋找的突破，國際頂級學術期刊《Cell》收錄了這一研究論文。

AI 發現16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

《基于人工智能探索和記錄隱藏的RNA病毒世界》論文提出深度學習模型"LucaProt"，用于快速準確判別RNA病毒，顛覆傳統病毒發現方法。LucaProt基于Transformer框架與大模型技術，結合蛋白質序列與結構特征，在測試中展現出高準確性與特異性。通過引入蛋白質結構性信息，模型在外部驗證集上達到97.4%召回率及0.023%假陽性率，檢測速度僅需幾百毫秒至幾秒，遠超經典方法的幾天至幾周。

研究團隊利用云計算與AI技術發現超16萬種新RNA病毒，是已知種類的近30倍，深化了對RNA病毒多樣性和演化歷史的認知，并帶來病毒學新發現。

論文的作者團隊橫跨了生物學領域與 AI，是傳統學科與 AI 前沿技術雙方人才的高效聯合。阿里云飛天實驗室算法專家賀勇與中山大學醫學院侯新博士，為論文共同第一作者。論文共同通訊作者為中山大學施莽教授，阿里云生物計算研究總監李兆融，和悉尼大學全球知名病毒學家 Edward Holmes。

AI 發現16萬種新RNA病毒成果登上《Cell》后，我們和阿里云算法專家賀勇聊了聊

（阿里云和中山大學團隊，右二賀勇、右三李兆融、右四施莽、左四侯新）

作為論文共同一作，賀勇表示：“基于AI+病毒學的新研究框架刷新了人類對病毒圈的認識，隨著這種認識的不斷完善，有助于人類對未來可能發生的大流行進行預警，以及進一步推動RNA病毒疫苗的研發。”

AI for Science 探索，更需要“AI+云計算”的多面支持。近幾年，AI 技術助推學術發展上，阿里云已與全球超過70所高校開展學術合作，累計支持合作高校發表100 余篇高水平論文，共同申請近70項發明專利。

在 AI for Science領域，阿里云與中山大學、浙江大學等國內知名高校共同開展病毒學、藥物學、生物學等方向的科研課題，在生命科學領域已發表核酸和蛋白質統一基礎模型-LucaOne、RNA病毒發現-LucaProt、磷循環蛋白家族識別-LucaPCycle 等研究成果，其中多項成果由賀勇主導參與。

為探尋這次科研成果背后的 AI 邏輯，雷峰網(公眾號：雷峰網)旗下的 AI 科技評論專訪了阿里云飛天實驗室算法專家賀勇。賀勇老師分享了科研成果的經驗、AI for Science 的洞見。以下是訪談實錄，限于篇幅，雷峰網進行了不改原意的編輯：

可標準化的 RNA 病毒尋找，AI 大展身手

AI 科技評論：是否有預期到這次研究成果的突破？

賀勇：我們起初是抱著試一試的態度，目標是找新病毒，能不能發到頂刊，取決于最終的研究成果。找RNA病毒的方法，已經有一套傳統固定的方法了，其過程已經可以標準化，但過程還很繁瑣與復雜，我們就想著嘗試用 AI 的方法來處理尋找 RNA 病毒的問題。當然也需要一定的效果直覺，十年的AI實踐經驗讓我覺得這個問題AI能夠取得不錯的效果。

AI 科技評論：AI 的方法具備哪些優勢？

賀勇：傳統的方法需要有很多人工迭代的過程，需要人去查看確認、結果篩選、驗證，是相當復雜的過程，專家參與的工作較多。我們使用了最新的第三代深度學習技術，基于Transformer架構，基于生物領域的大模型構建了LucaProt，對RNA病毒的復制酶序列進行表征，基于該表征進行RNA病毒鑒定。

AI 的方法就是端到端，把中間很多人工過程直接省略了。生物數據與通俗意義上的文本和圖像其實不太一樣，一般人是無法直接閱讀的，要借助很多生物的工具才能辨認。AI 的好處在于，有了相關數據就可以自動去發現里面的一些隱含信息，識別隱含信息更利于發現病毒，所以使用 AI 的效果就非常好。

我們訓練的模型LucaProt，只要輸入一個序列，就能判斷其是否是RNA病毒，而不需要復雜的生信過程，或者傳統生物方法的過程。我們有一個獨立測試數據集來測試這個模型的效果泛化性，發現效果很好。通過全球大規模推理，經過生物實驗的驗證，用 AI 的方法發現了超16萬種新RNA病毒。

AI 科技評論：相較于 LucaOne 模型，LocaProt 有哪些技術突破？

賀勇：LucaOne是一個生物基礎大模型，無差別對核酸與蛋白質進行表征。LocaProt是生物大模型的表征能力，針對特定任務（如尋找新病毒）進行優化的模型。LucaOne提供強大的基礎表征，而LocaProt則解決具體的下游任務。

AI 科技評論：這次研究中如何處理生物與AI的跨學科隔閡？

賀勇：我們團隊在醫療和生物方面有一定的基礎，但直接對話生物學家仍有困難。阿里云生物計算研究總監李兆融作為中間角色，加速了雙方理解。交叉學科，橋梁的作用是不可替代的。

AI 科技評論：這個過程中遇到的主要瓶頸是什么？

賀勇：最大的瓶頸是生物學知識門檻。我們需要不斷學習生物知識，以全局思維處理生物問題。此外，生物學數據的校驗和處理也面臨挑戰。

AI 科技評論：如何解決這些瓶頸？

賀勇：我們呼喚復合型人才，即具備計算機和生物學雙重背景的人才。同時，與交叉學科的學院合作可能更得心應手，因為雙方能互補解決問題。

AI for Science 仍處于早期識別階段

AI 科技評論：AI for Science 的方法可以抽象成什么模式？

賀勇：AI的方法可以抽象為以下模式：首先分析數據與面對的科學問題的特性，然后基于這些特性設置專門的模塊，利用現有技術進行優化改造或提出新的模型架構以適應問題，接著進行效果評估和模型迭代，最后進行科學新發現與挖掘。

AI 科技評論：如何衡量一個項目是否適合用 AI 解決？

賀勇：我們會評估傳統方法的成熟度、對問題的理解門檻以及AI可能帶來的效果。同時，深入了解問題背后的規律是關鍵，有規律可循的問題AI往往能取得好效果。

AI 科技評論：您認為 AI for Science 在生物學領域具備哪些優勢？

賀勇：AI for Science在生物學領域的優勢主要體現在三個方面：一是生物數據的開放性和豐富性，特別是高質量數據的可獲得性，比如美國國家生物技術中心會把開放的數據經過由全球范圍內的科學家組成的校驗組去人工校驗，經過人工校驗之后就變成了高質量數據且全世界可以獲取；二是計算資源的不斷增強與成本下降；三是技術遷移的便利性，如生物序列與文本序列具有的相似性，使得與語言模型技術可以無縫遷移至生物學領域。

AI 科技評論：最近也是諾獎的物理跟化學都頒給了AI，您這次的研究成果也為病毒學帶來的突破，您對 AI for Science 發展有哪些看法？

賀勇：AI for Science雖然仍處于起步階段，但已經成為了解決科學問題的一種非常重要的手段與研究方法。它之所以受歡迎，是因為科學中有許多待解問題。現階段，需要將科學問題進行抽象，形式化定義成輸入輸出、有數據支撐、可計算的問題，AI 可以更好的解決。

在生物學中，AI剛開始發展，目前處于第一階段，比如識別生物序列的功能、病毒序列鑒定、來源及其感染性等，相當于文本或圖像領域的讀懂與階段，尚未達到生成式的第二階段。諾貝爾化學獎得主 David Baker 所做的蛋白質生成研究，想要什么功能蛋白質，就用 AI 的方法生成一個，現在效果還不是很好。

未來，在生物醫療領域，AI將逐漸進入生成式階段，如生成抗體或小分子藥物等。然而，目前 AI for Science 仍處于認識世界的階段，離改造世界還有一定距離。但前景是光明的，只是所處的階段的問題。

AI 科技評論：要達到AI for Science改造世界的階段，需要哪些條件？

賀勇：要達到 AI for Science 改造世界的階段，需要三個條件：一是更多精細化的數據積累，特別是治療疾病和制藥的數據。二是大模型架構的變革，以適應生物學信息的空間分子結構，目前的主流架構 Transformer 是基于序列的。但生物學的信息本身不是一個序列，是一個分空間分子結構，所以還是無法完全獲取全部信息，存在信息損失。三是基礎設施的跟進，如算力、顯卡等需要重構與之匹配。這些條件在自然科學領域使用AI時都是通用的。

AI 科技評論：您對 AI for Science 的未來發展有何擔憂？

賀勇：目前AI仍有諸多局限性，特別是它無法解決一些精細和微小變化的問題。AI仍依賴大量數據，還無法真正像科研人員那樣進行創新和改變。此外，生物學實驗中的手藝活和實操技術也是目前階段，AI無法替代的。