UCL 教授汪軍：多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

本文作者：三川

2017-07-07 16:47

專題：GAIR 2017

導(dǎo)語：多智能體強化學(xué)習(xí)會不會締造下一個 AlphaGo 奇跡？

2017 年 7 月 7 日，由中國計算機學(xué)會（CCF）主辦，雷鋒網(wǎng)與香港中文大學(xué)（深圳）承辦的 CCF - GAIR 大會，在深圳大中華喜來登酒店開幕。在 AI 學(xué)術(shù)前沿專場的第三場， 倫敦大學(xué)學(xué)院 UCL 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告內(nèi)容請看本篇雷鋒網(wǎng)的現(xiàn)場速記。

汪軍，倫敦大學(xué)學(xué)院（UCL）計算機系教授、互聯(lián)網(wǎng)科學(xué)與大數(shù)據(jù)分析專業(yè)主任。主要研究智能信息系統(tǒng)，主要包括數(shù)據(jù)挖掘，計算廣告學(xué)，推薦系統(tǒng)，機器學(xué)習(xí)，強化學(xué)習(xí)，生成模型等等。他發(fā)表了100多篇學(xué)術(shù)論文，多次獲得最佳論文獎。是國際公認(rèn)的計算廣告學(xué)和智能推薦系統(tǒng)杰出華人專家。

UCL 教授汪軍：多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

汪軍：潘院士今天早上講了人工智能 2.0。其中的一個方向，是多個智能體之間的協(xié)作與競爭。我們還可以從社會學(xué)角度，把多智能體看作是一個群體；研究整個群體、動態(tài)系統(tǒng)的特性是什么。對于該話題，我希望給大家做一個介紹。

大家都了解 AlphaoGo，它的一項核心技術(shù)就是強化學(xué)習(xí)。相比模式識別和監(jiān)督學(xué)習(xí)，它在缺乏訓(xùn)練數(shù)據(jù)集的情況下仍然可以工作。強化學(xué)習(xí)系統(tǒng)能夠直接和環(huán)境交互，得到反饋信息，在此過程中不斷學(xué)習(xí)，因此更加自然、靈活。強化學(xué)習(xí)的一項主要特性，是以收益（reward）定義目標(biāo)方程，生成優(yōu)化策略。

多智能體的強化學(xué)習(xí)

今天重點講的，是多智能體的強化學(xué)習(xí)。它們單獨的和環(huán)境進(jìn)行交互。在一種情況下它們各自優(yōu)化自己的目標(biāo)，但這些目標(biāo)之間有約束；另一種情況下，它們聯(lián)合起來優(yōu)化一個主要的目標(biāo)方程。根據(jù)具體的情況會有不同的變化。

案例 1：互聯(lián)網(wǎng)廣告

過去，我們再互聯(lián)網(wǎng)廣告領(lǐng)域做了很多工作，比較早得應(yīng)用了強化學(xué)習(xí)方法：在環(huán)境交互的情況下，根據(jù)投放廣告以后用戶的反饋，系統(tǒng)不斷地進(jìn)行學(xué)習(xí)。

目前我們可以在 10 毫秒之內(nèi)做好決策，在每天 10 億流量的情況下進(jìn)行分析，幫助廣告主精準(zhǔn)投放。

案例 2：星際爭霸

UCL 教授汪軍：多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

我們通過對星際爭霸單位的控制，找到多智體的規(guī)律。研究它們在游戲里怎么合作、競爭與通訊。近幾個月，我們和阿里巴巴合作開發(fā)了一套玩星際爭霸的 AI 系統(tǒng)。該項目中，我們最想解決的是 AI 智體之間的通訊問題——當(dāng)它們想合作起來攻打?qū)Ψ降臅r候，必須要有效地合作。我們希望在計算的時候，計算量相對較小，同時又達(dá)到智體的協(xié)同目的；于是采用了一種雙向連通方式，效果非常明顯。

目前，多智體強化學(xué)習(xí)的研究仍處于非常初步的階段。這里，有兩個方面的關(guān)鍵問題：

問題 1：多智體協(xié)同研究中，智體數(shù)量少

目前的研究，主要集中于少量多智體之間的協(xié)同。在有上萬個智體的情況下，（應(yīng)用研究成果的）效果就不是很明顯。而許多現(xiàn)實場景中的多智體數(shù)量，可以達(dá)到百萬、甚至千萬級。

案例 3：智能打車 APP

一個很明顯的例子是Uber、滴滴等智能打車應(yīng)用。

這類例子中，每個用戶手上的終端、每個司機手上的終端，你都可以把它們想象成智能體。它們可以做出決定：到底什么樣的價錢我可以接受。系統(tǒng)層面甚至可以有一套機制合理分配資源。比如，出行高峰出租車比較少，但是需求量又比較大。而在其它的一些時候，可能出租車很多，但是需求量不大。系統(tǒng)怎么調(diào)配，這其實需要一個非常大的人工智能協(xié)作系統(tǒng)來分析。

案例 4：共享單車

共享單車的情況更加明顯。你可以想象，如果給每個自行車裝了芯片或者計算機，它就是一個很智能的東西，可以根據(jù)目前的情況，優(yōu)化車輛的地理位置分布。

今天，如果要做一個強化學(xué)習(xí)的模型，這個模型必須要可以處理百萬級的智體。只有在這個量級，我們才可以把人工智體組成的群體和生物群落做對比，觀察宏觀層面的活動規(guī)律。

應(yīng)該怎么去做？我們可以從自然界里面獲得一些啟發(fā)。比如生態(tài)學(xué)的 self-organisation （“自組織”）理論：一些個體行為的簡單規(guī)則，能造成種群層面的宏觀規(guī)律。我們研究的課題之一，是探索多智能體組成的群體，和自然界中的動物群體，是否有相通之處？其活動模式是否遵循同一套規(guī)律？

案例 5： Lotka-Volterra 模型

這里，有一個動物界的著名模型名為 Lotka-Volterra （LV）模型。該模型描述的是：相互競爭的兩個種群，它們種群數(shù)量之間的動態(tài)關(guān)系。我們根據(jù)該模型的理論，用深度學(xué)習(xí)和強化學(xué)習(xí)做了一個老虎和羊的多智體生態(tài)模型。我們發(fā)現(xiàn)，如果關(guān)掉智體的學(xué)習(xí)能力（比如老虎），它們無法適應(yīng)新環(huán)境，生態(tài)系統(tǒng)很快崩潰。

而給智體學(xué)習(xí)能力之后，模型出現(xiàn)的現(xiàn)象，與 LV 模型中猞猁抓兔子的動態(tài)現(xiàn)象十分相似。模擬出來的多智體生態(tài)，和自然世界的生態(tài)圈都遵循一種動態(tài)的平衡，就好比多個 AI 智體形成了一個動物種群。這讓我們十分驚奇，人工智能體和生物群體可能有許多共同規(guī)律。

這個研究很有意思的一點是，我們發(fā)現(xiàn)有這樣的場景：智體之間可以聯(lián)合在一起優(yōu)化某一個目標(biāo)，或者單獨優(yōu)化它們自己的目標(biāo)。當(dāng)出現(xiàn)這兩種情況的時候，作為一個群體，他們就有了內(nèi)在的規(guī)律。如果把這些規(guī)律找到，對于我們?nèi)ラ_發(fā)一些新的模型、新的計算機人工智能的方法，是非常有幫助的。

問題 2：缺乏對多智體環(huán)境控制的研究

案例 6：宜家

傳統(tǒng)強化學(xué)習(xí)沒有深入探索過多智體環(huán)境問題，而往往把它作為一個假設(shè)前提：要么假設(shè)這個環(huán)境是不變的，要么假設(shè)這個環(huán)境有一定的概率在不斷變化。而這個概率是不變的（not designable），意味著無法設(shè)計這個環(huán)境，而是更加適應(yīng)這個環(huán)境。但是實際情況下發(fā)現(xiàn)，很多場景下，環(huán)境本身也需要一個適應(yīng)的過程。在宜家的熱力圖上，我們可以看出谷歌在商場里的活動是非常平均的，這是一個非常好的現(xiàn)象。我們可以開發(fā)一個強化學(xué)習(xí)算法，讓環(huán)境（商品擺放）根據(jù)顧客的變化而變化。鑒于此，我們在 UCL 的團(tuán)隊首創(chuàng)了對多智體環(huán)境的控制，并研究如何學(xué)習(xí)環(huán)境的深層因素。

這是一個建筑系教授進(jìn)行的研究，他做了一個地圖模擬人在店鋪里面走的情況，根據(jù)熱力圖反饋到鋪面設(shè)計，來優(yōu)化用戶在這里面待的時間，或者說最大化用戶可能消費的情況。

案例 7：分揀機器人

單個智體（機器人）要進(jìn)行優(yōu)化，以最快的路徑分揀快遞包裹。這個環(huán)境未必是最優(yōu)的，我們根據(jù)貨物的統(tǒng)計特性，設(shè)計我把發(fā)往南京的包裹通道放在北京旁邊還是放在上海旁邊。所以環(huán)境也需要很好的考量和設(shè)計。

案例 8：迷宮

一個人工智體，需要以最快的效率找到出口。而環(huán)境知道其智能水平，根據(jù)情況來設(shè)計迷宮，使得智體有最困難或者最小的概率可以出去。這是一個競爭的關(guān)系。

怎么優(yōu)化呢？你會發(fā)現(xiàn)，該系統(tǒng)在兩個不同的維度進(jìn)行。在人工智體的情況下，它會說給定一個環(huán)境，我想以最快的效率、最優(yōu)的策略走出來。當(dāng)你把這個人工智體學(xué)到的東西定住以后，就可以在另外一個維度優(yōu)化環(huán)境：現(xiàn)在這個智體是這樣的屬性，能不能據(jù)此使得環(huán)境更困難？這兩個維度互相競爭、互相迭代，就可以達(dá)到優(yōu)化的情況。雷鋒網(wǎng)雷鋒網(wǎng)

AAAI主席Subbarao：機器的學(xué)習(xí)過程與人類不一樣 | CCF - GAIR2017

中科院院士譚鐵牛：模式識別研究的回顧與展望 | CCF-GAIR 2017

CMU教授金出武雄演講：戶外機器人系統(tǒng) | CCF-GAIR 2017

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。