普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

本文作者：陳彩嫻

2021-12-23 15:12

導語：拓展強化學習在復雜現實環境中的通用性。

強化學習在人工智能領域的「揚名立萬」，始于2016年DeepMind開發的Alpha Go在圍棋競賽中戰勝人類世界冠軍李世石。
之后，強化學習被廣泛應用于人工智能、機器人與自然科學等領域，并取得一系列突破性成果（如DeepMind的Alpha系列），引起了大批學者的研究興趣與廣泛關注。
事實上，強化學習的研究由來已久，遠遠早于2016年。自上世紀80年代以來，強化學習的核心問題，如探索效率、學習與規劃的規模與難度權衡，便在計算機科學、人工智能、控制理論、運籌學與統計學等等領域得到了廣泛研究。
然而，強化學習的基礎理論問題是什么？該領域出色的通用算法應具備哪些要素？如何設計高度可擴展的強化學習算法？……在2019年以前，這一系列重要問題均未得到很好的定義，強化學習也未形成一門獨立的研究學科。
在此契機下，2019年秋天，七位學者組織了西蒙斯強化學習理論大會，召集了來自世界各地對強化學習感興趣的學者，共同探討與梳理強化學習的研究問題。
與1956年的達特茅斯會議相似，該會議的參會者也是來自各個領域，有應用數學家、統計學家、理論計算機學家，還有通信學家、密碼學家、神經學家等等，包括Michael Jordan、Martin Wainwright、Csaba Szepesvari、Ben Recht等等知名學者。
大會長達半年，橫貫一學期，覆蓋四個分論壇，七位發起人梳理問題，最終確立了強化學習領域的四大核心研究方向：在線強化學習、離線與基于模擬器的強化學習、深度強化學習與應用強化學習。此舉打開了科研人員研究強化學習理論與通用算法的大門，此后，研究強化學習的論文在NeurIPS、ICML等國際頂會上井噴，越來越多學者參與其中，極大地推動了強化學習學科的快速發展。
西蒙斯大會無疑是強化學習方向的「達特茅斯」。但與達特茅斯會議不同的是，西蒙斯大會的七位發起人中，有一位華人學者。她就是現任普林斯頓大學終身教授的知名青年科學家王夢迪。

1、從控制論談起

求學期間，王夢迪常被稱為「天才少女」：

14歲上清華，18歲到麻省理工學院（MIT）讀博，師從美國國家工程院院士 Dimitri P.Bertsekas，23歲博士畢業，24歲進入普林斯頓任教、擔任博士生導師，29歲獲得終身教職，斬獲多個重要學術獎項，可謂一部活脫脫的「名校披襟斬棘之史」！

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

圖 / 2018年，王夢迪入選「MIT TR35」中國區榜單

王夢迪在人工智能領域的探索，始于清華大學自動化系的本科就讀經歷。

清華大學自動化系組建于1970年，名師云集，引領著控制工程學科的科技創新，推動現代化和人工智能科技進程。控制論便是當代人工智能的起源之一。

從原理上看，控制論與強化學習/人工智能系統有著緊密聯系。

如凱文·凱利在《失控》一書中所言，人工智能的雛形其實很簡單：比方說，早期的抽水馬桶就是一個「人工智能系統」：只要摁一下沖水鍵，馬桶就能在失誤很小的情況下自動完成沖水功能。但凡一個機制能通過反饋完成一個功能，就是人工智能。

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

圖 / Kevin Kelly發表于1992年的經典科普著作《失控》

控制論的核心思路是對一個已知系統設計自我反饋機制以達到特定的目標或最大/最小化目標函數：

人們用一組微分方程或拉普拉斯函數對需要控制的系統（如機械系統、電氣系統等）進行完整的描述。當系統的模型完全精確已知時，早期研究者無需借助計算機就可以通過數學的運算直接推導出該系統的最優控制策略，從而在物理上設計一個反饋機制，隨著系統狀態變化給出不同的反饋，實現自動控制。

同樣地，強化學習也是基于系統的狀態，不斷對系統進行動態操控。區別在于，對于強化學習算法來說，待控制的系統是一個黑箱函數，不具備完整的數學描述，難以直接求解最優策略。所以，強化學習有潛力解決很多復雜但模糊的新問題，比如游戲的最佳策略，蛋白質的設計等等。

本科期間，王夢迪便是從控制論出發，首次接觸了強化學習算法。

清華自動化系的本科畢業設計要做一個雙足行走的機器人，在機器人的髖關節中間加一個小小的電機，目標是用最小的能量讓機器人流暢地行走起來。假設機器腿是完美的剛體結構，腿部的擺動可以用拉格朗日方程精確描述。這時，經典的控制論就可以找到最優的控制策略。

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

圖 / 雙足機器人（圖源網絡）

然而現實的場景往往不符合假設，不存在精確的數學描述。課題中，要先不施加電機輸入，觀察機器人在斜坡如何利用重力和擺動被動走起來；走起來后，收集它的行走軌跡數據。然后，再基于數據，探索如何通過控制髖關節的電機，設計一個自適應的反饋系統，讓機器人擺脫對重力的依賴、在平地上健步如飛。

面對這樣一個動態過程，強化學習被派上用場：如果把雙足機器人系統當成一個黑箱函數，基于價值函數和策略函數不斷迭代、更新、實驗、逼近，就能通過不斷的試驗進行在線學習，算出一個最適合雙足行走機器人的狀態-價值函數，找到最優控制策略。

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

圖 / 王夢迪在 2017 年中國人工智能大會上作演講，談控制論與人工智能的關系

隨著控制問題的復雜度不斷提升，控制算法對系統建模的依賴也需逐漸放松，注重通過實驗來收集數據、從數據中總結模型信息、在線學習來逼近最優系統操控策略的強化學習方法將在復雜系統中扮演越來越重要的角色。從這一點來看，控制論成就了人工智能的核心，而強化學習等新興方法又反哺了控制問題的求索：

「比如，下棋本身無法用微分方程來描述，但我們可以一邊下、一邊收集下棋和對手的信息。當我們對要控制的系統的先驗知識越來越少時，我們就越來越依賴于來自經驗與數據的近似，并利用大規模深度神經網絡進行高通量的計算、擬合和推理。」王夢迪介紹。

基于反饋、優化、乃至于深度學習，現代人工智能早已改變了人類的生活和認知，從自動駕駛到機器人流水線，從宏觀電網調度到微觀的蛋白質優化。控制論中的許多經典思想和方法，比如貝爾曼方程、模擬、反饋、系統辨識等方法，深刻影響了以深度強化學習為代表的現代人工智能研究上。

2、MIT讀博：科研觀的形成

在MIT讀博期間（2007-2013），王夢迪師從 Dimitri P.Bertsekas教授，隸屬于信息與決策系統實驗室（Laboratory for Information and Decision Systems, LIDS），主攻控制算法與隨機優化問題。

MIT 的 LIDS 實驗室的研究傳承來自于維納與香農。維納是控制論之父，而香農是信息論之父，控制論和信息論，分別代表了工業自動化時代和信息時代的開端。自成立以來，LIDS實驗室的杰出科學家們便追求將控制論與信息論結合起來，用于復雜系統的智能化和信息化。

王夢迪的博士導師、美國國家工程院院士 Dimitri P.Bertsekas 是自動控制領域的宗師，于控制論、優化、運籌、神經網絡等多個領域做出過奠基性貢獻。

王夢迪對AI科技評論回憶，讀博那會，導師Bertsekas非常寬松。王夢迪是他的關門弟子，他一直很鼓勵她的發散性思考，從不否定她的各種腦洞大開的想法，這讓王夢迪進一步釋放了在清華時就開始積淀的對開創性的新問題、新領域的追求：

「我現在回想起來，他從來沒有說過一句令我沮喪的話。如果我處在他的位置，可能對『我』會有挺多意見的。」

在Bertsekas的門下，王夢迪更多是學習到了一種高級的研究品味。這是一種與大咖導師同行、耳濡目染之下培養的研究思路。

Bertsekas在應用數學與系統控制方向均有極高的研究造詣，著有《概率導論》、《非線性規劃》、《隨機優化控制》與《強化學習與最優控制》等十多本著作與教材，是名副其實的大咖。在他的反復錘煉下，王夢迪慢慢明白一項好的研究工作應當具備怎樣的標準，「他是一點一點地把我拎到了那個高度。」

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

圖 / Dimitri P. Bertsekas

Bertsekas是2019年完成《強化學習與最優控制》一書，彼時，王夢迪已離開導師的庇蔭許久，在強化學習這一她自己獨立拓展的領域打開一片新的天地，成為了人工智能、強化學習領域能夠獨當一面的學者。

對控制論與強化學習的關系思考，也使王夢迪相信：學習效率更高、泛用性更強的算法，是人工智能的未來。

3、機器學習與強化學習理論探索

王夢迪在2014年開始進入普林斯頓擔任助理教授，2019年成為普林斯頓大學的終身教授，之后王夢迪加入了普林斯頓當時剛成立不久的統計與機器學習中心（Center for Statistics and Machine Learning，CSML），是最早加入CSML的教授之一。

CSML的主要研究內容是開發數據驅動的現代機器學習算法，與王夢迪的研究方向更契合。同樣是舉下棋的例子：就下棋而言，智能體的訓練數據來自于游戲本身，每嘗試新的玩法、就會收集到新的數據；在一個可以完美模擬的游戲環境中，智能體所收集的數據量甚至是無上限的。如何從模擬走向現實，即「sim2real」，是人工智能領域面臨的難題之一。

自2015年DeepMind開發的Alpha Go 在與世界圍棋冠軍李世石的對峙中取勝，強化學習便成為許多人工智能研究員的神往之地，王夢迪也是其中之一。

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

圖 / 普林斯頓大學統計與機器學習中心（CSML）

在早期工作中，王夢迪是將數學優化方法與高維統計相結合，以解決大規模機器學習中的圖問題。比如，當圖問題離散組合時，如何利用問題的特殊結構，將問題進行對偶分解，從而獲得一個出色的近似解。這一近似解借用了非凸優化的對偶性，與非凸問題的最優解相近。

她探索過復雜的多層期望嵌套的隨機規劃問題。通過巧妙的設計多層嵌套隨機梯度法，能夠在線的進行迭代，最終拿到的估計的統計效果與離線進行完整組合分析的效果一致。憑借這項研究，王夢迪在2016年獲得三年頒發一次的國際數學規劃學會青年學者獎（Young Researcher Prize in Continuous Optimization of the Mathematical Optimization Society）。

這些探索性的研究更加深了王夢迪對隨機優化理論與機器學習結合的興趣。接著，她又與斯坦福大學的葉蔭宇（馮諾伊曼理論獎唯一華人獲得者）等人合作，研究馬爾可夫決策鏈（MDP）的理論復雜度與最優算法。

MDP是強化學習的基礎模型，同時，MDP的算法復雜度也是運籌學領域的經典問題。他們要解決的問題是：當強化學習的樣本來自于馬爾可夫鏈時，要如何研究一個算法的最優收斂性與樣本復雜度？如何定義MDP問題的最優算法與計算復雜度？從上世紀70年代起，便有許多學者開始研究這些問題，但一直懸而未決。

王夢迪與葉蔭宇等人合作，結合經典的價值迭代算法，以及樣本與方差縮減技巧，首次提出了能基于樣本精確解決MDP的最優快速收斂算法，將馬爾可夫決策鏈中的計算復雜度與樣本復雜度做到了最優。他們的一系列工作（如“Near-Optimal Time and Sample Complexities for Solving Markov Decision Processes with a Generative Model”）于2019年發表在了計算機和機器學習頂會NeurIPS、SODA等上。

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

論文地址：https://arxiv.org/pdf/1806.01492.pdf

憑借在馬爾可夫決策鏈復雜度和在線強化學習上的一系列工作，王夢迪在2018年入選了「麻省理工科技評論35歲以下創新35人（MIT TR35）」的中國區榜單。

后來，她又在強化學習領域做了許多通用算法研究的工作，比如，在特征空間中進行在線自學習；再比如，探索強化學習的未知模：當未知價值函數屬于一個無限維的抽象函數空間時，要如何在這個空間里不斷迭代估計，并用該空間的復雜度來描述強化學習算法的效率。這些早期工作，也成為理論強化學習領域的奠基性工作。

2020年，DeepMind發布新一代強化學習系統Muzero。以往的強化學習算法如AlphaGo和AlphaZero往往只適用于單一類別的游戲。Muzero僅使用像素和游戲分數作為輸入，同時在Atari、圍棋、象棋等多個單人視頻游戲和雙人零和游戲上超越人類水平，達到AI算法最強戰績。

那時王夢迪正在DeepMind休學術假。她與團隊成員聯合 DeepMind 的科學家從理論上證明并進一步推廣了Muzero的泛用性，移除了“價值函數導向回歸”（value target regression）的特殊算法技巧，使得強化學習算法可以在任何一個黑箱環境中，對未知環境的變化進行判斷、數據收集、并且構造后驗概率模型，在一個抽象的大的函數空間里不斷搜索、縮小模型范圍，對未知環境及其最優策略快速逼近。

該算法同時結合了 model-based（基于環境模型的）和 model-free（不基于環境模型而是基于價值函數逼近）的兩派強化學習算法各自的優點：對任意的黑箱環境進行探索、建模、并且利用深度價值網絡快速訓練、快速在線迭代策略，從而煉就了極強的泛化能力。這一系列新成果可以極大提高強化學習的效率，普適性，并降低對昂貴的算力和大規模數據資源的依賴。

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀

論文地址：https://arxiv.org/abs/2006.01107

4、拓展強化學習在復雜現實場景中的通用性

所有強化學習的算法都受限于馬爾可夫決策過程中的獎勵可加性 (reward additivity)，即「目標價值函數是每一步所得獎勵的累加值期望」。獎勵的可加性是貝爾曼方程（Bellman Equation）、控制論、乃至所有強化學習算法的數學基礎。

盡管獎勵的可加性能推導出數學上優美的貝爾曼方程，卻極大地限制了強化學習的應用，因為在大量的非游戲的現實場景中，目標函數往往不是獎勵的簡單相加。在風險控制、策略模仿、團隊協作等場景中，真正的目標函數往往是關于狀態軌跡的復雜非線性函數，如風險函數、散度等等，甚至包含復雜的非線性安全約束條件。由于缺乏可加性，這些重要的實際問題無法用強化學習解決。

然而，當可加性不再成立，強化學習和控制的數學基礎不復存在，我們熟悉的價值函數（Value Function）也不再存在。同時，策略優化算法的基礎——強化學習之父Rich Sutton證明的策略梯度定理（Policy Gradient Theorem）也不復成立。

在智能決策領域，不滿足獎勵可加性的問題無解。

王夢迪團隊挑戰了這個全新的領域，拓展了強化學習的邊界。當面對復雜目標函數、獎勵不再可加時，王夢迪團隊利用數學對偶原理，重新定義了策略梯度，得到了全新的更泛用的變分策略梯度定理（Variational Policy Gradient Theorem）。他們證明，對于更復雜的目標函數，其策略梯度依然可以計算，并且其等價于一個極大極小值問題的最優解。被重新定義的策略梯度，帶來了全新的算法和應用。也就是說，強化學習可以進一步推廣到金融風控、多智能體、模仿學習等現實場景中。

強化學習的邊界，從獎勵可加的馬爾可夫決策過程，推廣到更一般性的、更復雜的策略優化問題。這一系列工作收到了強化學習領域和數學優化領域的關注，連續兩年在NeurIPS 2020與2021上被選為Spotlight Paper：

J Zhang, C Ni, Z Yu, CSzepesvári, M Wang. On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method. (NeurIPS 2021)
J Zhang, A Koppel, AS Bedi, C Szepesvari , Mengdi Wang. Variational Policy Gradient Method for Reinforcement Learning with General Utilities. (NeurIPS 2020)

面向未來，王夢迪在強化學習中的另一項重要研究，便是數據降維（Dimensionality Reduction）和離線學習（Offline Learning）。

王夢迪的研究路線一向清晰：從理論研究出發，再將理論上的突破推向實際應用。基于離線數據的、在現實生活中落地的決策優化問題，便是王夢迪團隊的一塊「硬骨頭」。

如前所述，在常見的游戲AI任務中，智能體能夠通過不斷模擬實驗來收集數據，然后用這些數據來訓練系統的策略網絡。數據越多，算力充足，則算法越強，比如Alpha Go，AlphaStar，就能打敗人類世界的冠軍戰隊。

但在現實生活中，許多關鍵領域，比如醫學與金融，并不具備像游戲般的完美模擬環境。因此，在模擬器上十分完美的強化學習算法，在現實生活中就未必能輕松地解決工程問題，比如醫療場景中的策略優化、復雜電力系統的最優控制等。這就是sim2real的難點。

王夢迪曾參加過一些醫療領域和生物技術領域的人工智能探索。在這些項目中，她的任務是將病人的病例數據當成「棋譜」，從中學習針對某一病例的診斷策略，并研究能否進一步優化診斷流程，降低病人的重癥率。與游戲中的智能體可以「盲目」嘗試、無限模擬不同，在醫學環境中，病人沒有辦法做新的實驗，而且數據可能極其有限。

在數據有限的情況下，研究者還能找到最優策略嗎？亦或者是否可以退而求其次，將現有的策略進行最大程度的提高？如果要繼續做實驗，那么應該如何進行，才能以最小的代價收集到這些數據？這些問題，也就是「離線強化學習」所關心的問題。

顯然，離線強化學習更看重「有效率」的嘗試。王夢迪與團隊通過數據降維的embedding方法，將數據從高維空間切換到低維空間，從而保留最有內容的信息，規避數據的過度擬合現象，為離線強化學習的研究開辟了新的道路。這些新探索在AI+醫療、新金融、AI「智造」等領域帶來新的可能性。

5、面向未來的AI

應用數學和基礎理論，往往是發現通用算法的起點。研究問題的通用性，逐漸拓寬研究的邊界，加速了學科的交流與合作，也成就了王夢迪更大的研究世界觀。

強化學習、統計優化是王夢迪組的兩大研究方向，但她并沒有將自己局限于機器學習的范疇。

青年科學家如王夢迪，成長于學科漸趨深度融合的大環境，也擁有了更大的研究世界觀。在科研上，他們站在巨人的肩膀上，追求探索與創新的工作。跨學科作為火花碰撞的主要口子之一，自然對新一代的研究員有著致命的吸引力。

如果說達特茅斯會議的頭腦風暴，是學科知識融合的起切口，那么，「AI for Science」（將人工智能應用于科學研究）似乎是人工智能首次作為一門成熟的獨立學科，加入到學科間的交流中。科學領域的「大熔爐」是否會形成？答案仍未揭曉，但趨勢卻漸顯。

「普林斯頓以科學為本，也愿意站在一個更高的理論角度來思考學科的發展，對AI for Science十分關注。」王夢迪談道。

王夢迪對「AI for Science」的關注，始于2019年。那時，王夢迪在學術休假期間加盟DeepMind，兼職任高級研究科學家，也接觸到了許多將人工智能技術用于科學研究的工作，比如能夠預測蛋白質結構的 AlphaFold，不久前用神經網絡求解混合整數規劃（MIP）問題等。

王夢迪與團隊追求創新研究，探索前人沒有涉足過的問題。在她看來，機器學習領域更多基礎問題已經解決，但在應用中還有大片空白。比如，在 AI 與生物學、AI與醫療、AI與材料等的結合研究中，學科間的融合是一大難點。

在與跨學科的科學家合作的過程中，王夢迪的一個感受是：兩個領域的學者在定義問題的語言與方式上十分不同：

「機器學習的研究者習慣一上來就先問數據是什么、輸入輸出是什么，而自然科學的科學家可能對『輸入』的概念很模糊。尤其是當數據少時，我們會需要對數據進行遷移學習，了解其他關聯數據，分析數據之間的相似性，尋找內在邏輯和圖譜等等。所以，要設計機器學習算法來輔助science，還要有大量溝通。」

不過，王夢迪并不沮喪。DeepMind是將人工智能應用在科學研究上的領頭羊。來自 DeepMind 與其他機器學習領域的科學家的自信也感染了王夢迪:

「DeepMind的價值觀就是要推動人類文明的進步。我感覺研究人工智能的學者都非常自信，覺得自己有能力解決世界上最難的問題。這種自信非常棒，會給予自己主觀能動性，也會感染其他學者，幫助不同學科的人更快、更好地聯合在一起，去解決原先以為難于登天的問題。」

近日，王夢迪與團隊在這方面也取得了不錯的成果：他們將單細胞的狀態（來自于單細胞的逆轉因子測序）當成一個系統來進行強化學習建模，通過高通量的單細胞測序數據來重建一個單細胞的狀態變化軌跡，甚至找到它的重要隱變量，從而預測干細胞的分化和癌癥細胞的病變。他們用深度學習的方法優化堿基序列和蛋白質氨基酸序列，輔助開發新的基因編輯、基因治療工具。

問及為何「AI for Science」的首選領域是結構生物學，王夢迪解釋：主要原因是結構領域的數據相對多；即使沒有數據，還可以用分子動力學進行計算模擬。很多AI在藥物發現上的突破，即是從這個角度出發，用深度學習進行加速，做泛化性處理。然而在數據量更稀少的問題上，還有大片空白等待探索。

談起DeepMind，王夢迪非常愛戴，這個由世界頂級科學家創立的科研機構在用 AI 推動科學進步、社會進步的進程上敢為天下先，給全世界的學者帶來了信心。但與此同時，DeepMind也無需被過度神化：「單就強化學習的應用技術而言，國內的領頭羊，比如騰訊 AI Lab、阿里達摩院、滴滴等，并不比DeepMind差。」

追溯DeepMind發展飛快的更深一層原因，是 DeepMind 的科學家在母公司谷歌的支持下，能夠自由地探索研究。相比之下，「國內應該沒有一個 AI 機構能像 DeepMind 一樣拿到那么多沒有限制的資源。所以，從資源投入的角度來看，將任何一個以前的研究機構與 DeepMind 比都是不公平的。」

6、青年學者的樂觀主義

王夢迪對人工智能的未來十分樂觀。

她認為，機器學習仍在快速發展，當越來越多學科與知識融入其中，也必然產生越來越多的新問題。從這個角度來看，后繼者在可以前人的基礎上開辟新的道路，深度學習的瓶頸未必是人工智能研究的瓶頸。年輕的科學家們有機會拓展機器學習的邊界、甚至科學的邊界，在AI的大領域中找到自己的位置。

也許是年齡與所帶領的博士生相仿，王夢迪似乎更能理解學生的想法，愿意支持學生做各種各樣的選擇。無論是進入學術界傳承衣缽，亦或進入工業界推動技術落地；是做應用和產品，還是理論研究，她認為，這些方式都能推動人工智能發展，無以臧否。雷峰網(公眾號：雷峰網)

這一點，顯然是受到了Bertsekas的影響。在她讀博時，導師便從未否定過她的想法，而是支持她做任何事情。

她所指導的許多博士生與博士后，如今也已卓有成就，比如楊林，加入了UCLA擔任助理教授，是NeurIPS 2020論文入選最多的華人學者（9篇）；酈旭東，如今已是復旦大學大數據學院的副教授；張君宇，現任新加坡國立大學副教授；郝博韜, 如今是DeepMind的強化學習科學家；Saeed Ghadimi，現任Waterloo大學商學院教授。

普林斯頓大學王夢迪：從基礎理論到通用算法，看見更大的AI世界觀