廣州實驗室陳紅明：藥企不開放化合物結構，數據共享只是「隔靴搔癢」｜AI制藥十人談

本文作者：喬燕薇

2023-06-08 16:21

導語：在數據共享中借助聯邦學習技術對數據進行加密，的確可以避免泄露企業的核心數據資產：化合物結構，卻也使得數據共享變成一場“隔靴搔癢”。

“大型藥企在行業內耕耘多年，內部積累了非常多的數據，在AI制藥這條賽道上，這些數據就是一條足夠寬的‘護城河’，相比之下，AI制藥公司獲取數據的難度卻高得多。”

陳紅明博士是廣州實驗室研究員，曾在藥企巨頭阿斯利康工作十余年，在AIDD領域有著豐富的研究經歷。近日，在與雷峰網《醫健AI掘金志》的對話中，陳紅明談及了他的研究經歷以及對AI制藥行業的觀點。

陳紅明畢業于中科院化工冶金研究所計算化學專業，后赴德國拜耳制藥公司烏帕塔爾研究中心從事博士后研究。

2001年，陳紅明加入藥企巨頭阿斯利康（AstraZeneca）哥德堡研發中心，從事計算化學和新藥開發方面的研究十余年，擔任主任研究員(Principal Scientist)，主持了多個歐盟地平線2020科研項目。

2019年，陳紅明回國后，全職加入生物島實驗室擔任研究員。2021年5月，加入由鐘南山院士領銜廣州國家實驗室，擔任研究員。

陳紅明在阿斯利康的最后幾年，AI技術在制藥領域開始大放異彩，他的研究興趣也從CADD轉向AIDD相關研究，并于2017年帶領團隊開發了業內著名的REINVENT算法。

他指出，相比近年來大批涌現的AI制藥公司，以阿斯利康為代表的藥企巨頭，在AI制藥這條賽道上有著天然的優勢，他們有著多年來積累的藥物數據，這是一條足夠寬的“護城河”，將許多競爭者攔在門檻之外。

近日，雷峰網《醫健AI掘金志》推出《AI制藥十人談》系列，探究AI制藥的前景與隱憂。以下為我們與陳紅明的對話內容，《醫健AI掘金志》做了不改變原意的編輯與整理。

《醫健AI掘金志》：自1998年博士畢業投身藥物研發領域以來，您經歷了藥物研發二十余年的變遷史。您此前工作的藥企阿斯利康是最早使用AI方法進行藥物開發的跨國公司之一。在您的研究歷程中，是如何完成從CADD到AIDD方法的轉變的？

陳紅明：我最初在阿斯利康的藥物發現部門的計算化學組，做一些與CADD相關的藥物開發項目支持工作，在研究方向上，主要從事高通量藥物篩選的數據分析，虛擬篩選以及藥物性質預測等工作。

2016年，我們申請了一個歐盟的項目ExCAPE，用大規模深度學習的方法搭建預測模型，以此為契機，我開始接觸深度學習中的神經網絡等算法。

通過這個項目，我開始和當時在歐洲高校中做相關研究的教授和學者們，如奧地利林茨大學的Sepp Hochreiter教授，Günter Klambauer博士等進行合作，逐步轉向AIDD的研究。

事實上，早在上世紀九十年代，基于定量構效關系的神經網絡就曾在藥物研發領域中被嘗試用于分子的活性預測，但當時的神經網絡技術在這項工作上表現并不太出色。

深度學習的興起，一度讓我認為AI技術將在藥物性質預測，尤其是分子的生物活性預測和ADMET的性質預測等方面取得很好的效果。

抱著試試看的想法，我們開始使用深度學習的方法構建預測模型。然而，受數據問題所限，AI在藥物性質預測領域雖有不錯的表現，但并未取得革命性的突破。

這可能有兩方面原因，一方面是制藥研發領域數據獲取成本非常高，導致整體數據量還不夠多；

另一方面，生物實驗數據本身存在實驗誤差，至今仍然沒有一個有效的整合標準，加之開源的數據通常來自于許多不同的實驗室，更是增加了數據整合的難度。

相比藥物性質預測，AI在分子生成模型上的應用效果反而更好。我的研究方向開始從以往的藥物性質預測轉向分子生成模型和化學反應預測研究，2017年，我們團隊研發了生成模型REINVENT算法（相關論文：M. Olivecrona, T. Blaschke, O. Engkvist, H. Chen, Molecular de-novo design through deep reinforcement learning, J. Cheminform., 2017, 9:48.）。

REINVENT模型使用SMILES 字符串作為分子結構的表示方法，首次使用RNN作為生成模型架構并結合了強化學習（RL）算法。

通過對這一算法的開發和實踐應用，我們發現，在分子生成這一領域，深度學習和傳統方法相比，已經取得了比較大的飛躍。

《醫健AI掘金志》：2019年，您離開阿斯利康，加入廣州國家實驗室，當時有什么契機促使您做出這一決定？

陳紅明：我在阿斯利康工作時，我所在的部門主要是做算法開發等工作，同時也為一些早期項目提供支持，但整體還是更偏重AI算法開發。

回國之后，我希望能夠繼續從事AI算法的開發工作，但考慮到在藥企中工作，可能需要花費很多精力在項目上，最終還是選擇了這樣一個更適合做研究的機構。

我加入的是廣州實驗室的前身--生物島實驗室，是廣東省省屬的實驗室。疫情爆發后，鐘南山院士在廣州建立了廣州國家實驗室，我所在的生物島實驗室大部分研究人員也轉入其下管理。

《醫健AI掘金志》：跨國藥企與AI制藥公司之間的合作情況怎么樣？國內的AI制藥企業一般有三種主要的商業模式，自研管線、CRO以及專門做技術平臺，跨國藥企對AI制藥公司的CRO與AI制藥軟件態度如何？

陳紅明：跨國藥企對AI技術的態度是非常開放的，阿斯利康和其他藥企近年來與AI制藥公司之間常有合作，比如阿斯利康與AI技術公司BenevolentAI合作，基于AI算法尋找腎臟疾病的新藥物靶點。

在服務模式上，大型藥企可能更傾向于選擇CRO企業，在這種合作模式之下，項目最終的評估指標非常明確。

而AI制藥軟件在使用的過程中，常常需要根據實際研發情況進行調整，很難以固定的模式進行工作。

因此，相比使用AI制藥軟件，CRO的效果更直觀，也更便于評估，對大型藥企來說，這種方式明顯更方便。

《醫健AI掘金志》：傳統藥企起家的公司與“跨界創業”的AI制藥公司二者相比，在AI制藥技術的開發上誰更具優勢？

陳紅明：傳統藥企是基于自身多年的專業積累和研發能力，在企業內部建立AI平臺；AI制藥公司則是以AI技術為基礎搭建算法平臺來做藥。

我認為這兩種方向各有特點，但在我個人看來，二者相比之下，大型藥企開發AI平臺或許會更具優勢。

最根本的影響因素在于，AI藥物設計是一個比較注重實驗與數據的學科，企業在研發過程中每獲取一個數據點，都要付出非常高昂的費用。

在醫療行業，數據屬于稀缺資源，這也是醫藥行業區別于其他行業的地方，比如自動駕駛等行業，獲取一個數據點的成本并不算高。

大型藥企在行業內耕耘多年，內部積累了非常多的數據，在AI制藥這條賽道上，這些數據就是一條足夠寬的“護城河”。

相比之下，AI start up（指以人工智能技術為基礎啟動的公司）獲取數據的難度卻高得多。而AI start up的優勢——AI技術人才，大型藥企則可以通過雇傭AI人才或尋求外部合作來彌補。

《醫健AI掘金志》：如您在上個問題中所講，在AI制藥領域，數據是稀缺資源，也是行業的“護城河”，藥企之間能否通過數據共享的方式，打破數據對行業發展的制約？

歐洲的數據共享項目MELLODDY（Machine Learning Ledger Orchestration for Drug Discovery，機器學習分類帳編排的藥物發現)，能否為國內藥企提供參照？

（注：MELLODDY項目匯集楊森制藥、安進、安斯泰來、阿斯利康、拜耳、勃林格殷格翰、葛蘭素史克、默克、諾華和施維雅等10家頂尖制藥企業，兩所高校，四家初創公司，以及IT企業英偉達，旨在創建一個建模平臺，在該平臺上可以利用多家制藥企業的數據，創建更準確的模型，以確定藥物開發最有效的化合物。）

陳紅明：在這個項目開啟之初，大家都期待這樣大規模的數據共享能夠為企業的模型帶來一定的提升，但我和以前阿斯利康的同事交流時，他表示相比阿斯利康自己原本的模型，提升并不算很大，這讓我有一些失望。

我認為可能是由于不同公司的生化測試方法有所區別，導致數據之間存在一些系統性的誤差。

此外，對藥企來說，數據中最核心的化合物結構往往并不會公開，因此在數據融合的過程中也可能會存在問題。

另一個可能的原因則是，制藥公司在藥物靶點的選擇上存在一定的共性，因此大家都集中在某些所謂熱門靶點上進行分子設計，因此導致合成的分子骨架結構差別不大，那么在化學空間上的提升自然就不會很大，這也可能會導致模型的提升有限。

這是我作為局外人觀察和猜測可能導致藥企模型提升有限的幾個原因，具體事實如何，還需進行大量的研究才能調查清楚。

MELLODDY項目這種數據共享模式暫時也不適合移植到國內，最重要的一個原因在于，國內的制藥公司相比MELLODDY項目中的大型跨國藥企，在數據積累上仍存在著非常大的差距。

目前比較常見的數據共享或交換的形式，往往是通過聯邦學習等技術，將數據轉換為描述符等形式，交由一個可信的中間機構來把關，化合物結構依然保密。

真正直接披露化合物結構的數據交換，在藥物研發領域還是比較難以達成，比如此前阿斯利康和拜耳兩家公司，曾商定交換相同數量的化合物，這是建立在兩家公司體量相當、數據庫規模也相當的情況下，進行平等的一對一交換，參與數據交換的人員數量也很少。

《醫健AI掘金志》：加入廣州實驗室后工作后，在藥企巨頭的工作經驗中對您來說有哪些可以借鑒？

陳紅明：在阿斯利康的工作經歷讓我對于計算化學科學家在日常工作中面臨的挑戰有足夠的了解。

雖然在阿斯利康工作時我主要從事算法開發，但也參加過一些藥物開發的項目，對藥物開發的流程比較熟悉，與項目中的核心人員有很多交流互動，更加了解在藥物開發過程中，計算化學的方法和工具還存在哪些欠缺，從而更好地開發AI算法。

這些經驗都可以應用在我現在的工作之中。

《醫健AI掘金志》：相比傳統的CADD方法，AI制藥具有哪些優勢？AIDD最終是將與CADD相互融合還是取代CADD?

陳紅明：相比傳統的CADD，AI藥物設計有其獨特之處，比如近年來才興起的生成式AI，這在以往的藥物設計中是沒有的。

傳統的藥物設計方法往往是基于規則進行，而AI生成模型則是數據驅動的算法，完全不需要預定規則，即可通過從數據中學習到的規律進行分析。

但我認為，AIDD仍屬于CADD這一大的范疇之中，屬于是CADD的一個全新的擴展。

CADD常用的分子對接、利用分子描述符建模的算法，在AIDD之中仍有沿用，所以，AIDD并不會取代CADD，二者將會相互融合，AIDD成為CADD的一個新的發展階段。

《醫健AI掘金志》：在分子結構生成環節，相比陷入瓶頸的CADD，AI可以通過學習大量的化合物結構數據發現隱含的結構構成規則，更具創造力，因此越來越多的AI制藥初創企業加入賽道，開發出許多不同的分子生成算法。

2021年5月，您的團隊針對現有分子生成模型評估方法的局限進行研究，提出了一種基于化學空間覆蓋度的生成模型效果評估方法，在這套評估方法之下，目前比較具有優勢的算法有哪些？

陳紅明：我們當時提出的評估算法，主要目的是選擇合適的數據集來對分子生成模型進行評估。

在我們之前，也有其他的研究者提出過一些生成模型的評估方法，但他們當時所選擇的數據集并不是平均的分布。

他們選擇的數據集中，涵蓋了針對不同靶點的分子，因此有些靶點的相關的特定結構類型會比較多，有些的結構類型則比較少，數據集的分布并不均勻。

但是評價生成模型，最好還是需要一個平均分布的數據集。

所以，我們當時選擇了GDB13分子集合，這個小分子庫包含將近10億個重原子數小于13的分子結構，而且這些分子都是從理論上窮舉出來的，分布更加均勻。

在GDB13分子集合的基礎上，我們基于完整的分子結構、官能團和環系這三個維度，對“化學空間覆蓋度”進行評估。

在當時的評估標準下，REINVENT算法的結果相對而言是比較好的，在這之后，國內也涌現出了許多很好的算法模型。

《醫健AI掘金志》：以ChatGPT為代表的生成式AI技術，將會為藥物研發帶來哪些新的可能性？

陳紅明：ChatGPT模型雖然很火爆，但我認為它目前仍處于比較早期的階段，大語言模型依然在快速迭代的過程之中。

我們團隊前不久也做了相關的評測，GPT3.5版本在生物醫藥的NLP數據集上表現是不錯的，但是與SOTA模型相比，GPT3.5在項目中的表現還是有很大差距的，在未來的不斷迭代升級之后，GPT也許會有更好的表現。

GPT模型在藥物研發的流程中也能夠起到很大的作用，一方面對知識圖譜的構建會有很大的幫助，比如從海量的文章中提取關鍵信息，作為素材生成知識圖譜，從而助力靶點發現等工作；

另一方面，也有人嘗試用ChatGPT直接進行藥物分子設計，目前來看這項工作還有些困難，但ChatGPT已經展現出知識綜合的能力，只要給它一個靶點，即可據此描述出分子應該具有的特征。雖然還處于比較初級的定性階段，但也為藥物設計工作提供了一種新的可能性。

另外，也許還可以通過ChatGPT進行化學反應推理等各項工作，總而言之，以ChatGPT為代表的的大語言模型，在藥物研發流程中或許會給人帶來意想不到的驚喜。

講座預約

為更加深入、系統地探討國內醫藥企業在新藥研發中面臨的諸多問題，雷峰網(公眾號：雷峰網)將于6月8日晚8點至10點，舉辦主題為《「人機協同」模式下的新藥研發》的線上圓桌論壇。

本次論壇，將由浙江大學藥學院教授謝昌諭主持，北京大學藥學院研究員劉振明、騰訊醫療健康AIDD技術負責人劉偉、浙江工業大學智能制藥研究院院長段宏亮、清華大學智能產業研究院戰略發展與合作部主任張煜參與討論。

讀者可掃描文章底部海報的二維碼，進入專家社群，我們會將您的問題收集、匯總，反饋給參會嘉賓，并在討論環節進行解答。

廣州實驗室陳紅明：藥企不開放化合物結構，數據共享只是「隔靴搔癢」｜AI制藥十人談

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

1人收藏

喬燕薇

主筆

關注醫療科技領域。微信號：qiaoyw186

掃描關注作者微信

發私信

當月熱門文章

廣州實驗室陳紅明：藥企不開放化合物結構，數據共享只是「隔靴搔癢」｜AI制藥十人談

講座預約

廣州實驗室陳紅明：藥企不開放化合物結構，數據共享只是「隔靴搔癢」｜AI制藥十人談