• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給三川
    發(fā)送

    0

    UCL 教授汪軍:多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

    本文作者: 三川 2017-07-07 16:47 專題:GAIR 2017
    導(dǎo)語:多智能體強化學(xué)習(xí)會不會締造下一個 AlphaGo 奇跡?

    UCL 教授汪軍:多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

    2017 年 7 月 7 日,由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的 CCF - GAIR 大會,在深圳大中華喜來登酒店開幕。在 AI 學(xué)術(shù)前沿專場的第三場, 倫敦大學(xué)學(xué)院 UCL 的汪軍教授帶來了以《群體智能的社會》為主題的報告。報告內(nèi)容請看本篇雷鋒網(wǎng)的現(xiàn)場速記。

    汪軍, 倫敦大學(xué)學(xué)院(UCL)計算機系教授、互聯(lián)網(wǎng)科學(xué)與大數(shù)據(jù)分析專業(yè)主任。主要研究智能信息系統(tǒng),主要包括數(shù)據(jù)挖掘,計算廣告學(xué),推薦系統(tǒng),機器學(xué)習(xí),強化學(xué)習(xí),生成模型等等。他發(fā)表了100多篇學(xué)術(shù)論文,多次獲得最佳論文獎。是國際公認(rèn)的計算廣告學(xué)和智能推薦系統(tǒng)杰出華人專家。

    UCL 教授汪軍:多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

    汪軍:潘院士今天早上講了人工智能 2.0。其中的一個方向,是多個智能體之間的協(xié)作與競爭。我們還可以從社會學(xué)角度,把多智能體看作是一個群體;研究整個群體、動態(tài)系統(tǒng)的特性是什么。對于該話題,我希望給大家做一個介紹。

    大家都了解 AlphaoGo,它的一項核心技術(shù)就是強化學(xué)習(xí)。相比模式識別和監(jiān)督學(xué)習(xí),它在缺乏訓(xùn)練數(shù)據(jù)集的情況下仍然可以工作。強化學(xué)習(xí)系統(tǒng)能夠直接和環(huán)境交互,得到反饋信息,在此過程中不斷學(xué)習(xí),因此更加自然、靈活。強化學(xué)習(xí)的一項主要特性,是以收益(reward)定義目標(biāo)方程,生成優(yōu)化策略。

    多智能體的強化學(xué)習(xí)

    今天重點講的,是多智能體的強化學(xué)習(xí)。它們單獨的和環(huán)境進(jìn)行交互。在一種情況下它們各自優(yōu)化自己的目標(biāo),但這些目標(biāo)之間有約束;另一種情況下,它們聯(lián)合起來優(yōu)化一個主要的目標(biāo)方程。根據(jù)具體的情況會有不同的變化。

    • 案例 1:互聯(lián)網(wǎng)廣告

    過去,我們再互聯(lián)網(wǎng)廣告領(lǐng)域做了很多工作,比較早得應(yīng)用了強化學(xué)習(xí)方法:在環(huán)境交互的情況下,根據(jù)投放廣告以后用戶的反饋,系統(tǒng)不斷地進(jìn)行學(xué)習(xí)。

    目前我們可以在 10 毫秒之內(nèi)做好決策,在每天 10 億流量的情況下進(jìn)行分析,幫助廣告主精準(zhǔn)投放。

    • 案例 2:星際爭霸

    UCL 教授汪軍:多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

    我們通過對星際爭霸單位的控制,找到多智體的規(guī)律。研究它們在游戲里怎么合作、競爭與通訊。近幾個月,我們和阿里巴巴合作開發(fā)了一套玩星際爭霸的 AI 系統(tǒng)。該項目中,我們最想解決的是 AI 智體之間的通訊問題——當(dāng)它們想合作起來攻打?qū)Ψ降臅r候,必須要有效地合作。我們希望在計算的時候,計算量相對較小,同時又達(dá)到智體的協(xié)同目的;于是采用了一種雙向連通方式,效果非常明顯。

    目前,多智體強化學(xué)習(xí)的研究仍處于非常初步的階段。這里,有兩個方面的關(guān)鍵問題:

    問題 1:多智體協(xié)同研究中,智體數(shù)量少

    目前的研究,主要集中于少量多智體之間的協(xié)同。在有上萬個智體的情況下,(應(yīng)用研究成果的)效果就不是很明顯。而許多現(xiàn)實場景中的多智體數(shù)量,可以達(dá)到百萬、甚至千萬級。

    • 案例 3:智能打車 APP

    一個很明顯的例子是Uber、滴滴等智能打車應(yīng)用。

    這類例子中,每個用戶手上的終端、每個司機手上的終端,你都可以把它們想象成智能體。它們可以做出決定:到底什么樣的價錢我可以接受。系統(tǒng)層面甚至可以有一套機制合理分配資源。比如,出行高峰出租車比較少,但是需求量又比較大。而在其它的一些時候,可能出租車很多,但是需求量不大。系統(tǒng)怎么調(diào)配,這其實需要一個非常大的人工智能協(xié)作系統(tǒng)來分析。

    • 案例 4:共享單車

    共享單車的情況更加明顯。你可以想象,如果給每個自行車裝了芯片或者計算機,它就是一個很智能的東西,可以根據(jù)目前的情況,優(yōu)化車輛的地理位置分布。

    今天,如果要做一個強化學(xué)習(xí)的模型,這個模型必須要可以處理百萬級的智體。只有在這個量級,我們才可以把人工智體組成的群體和生物群落做對比,觀察宏觀層面的活動規(guī)律。

    應(yīng)該怎么去做?我們可以從自然界里面獲得一些啟發(fā)。比如生態(tài)學(xué)的 self-organisation (“自組織”)理論:一些個體行為的簡單規(guī)則,能造成種群層面的宏觀規(guī)律。我們研究的課題之一,是探索多智能體組成的群體, 和自然界中的動物群體,是否有相通之處?其活動模式是否遵循同一套規(guī)律?

    • 案例 5: Lotka-Volterra 模型

    這里,有一個動物界的著名模型名為 Lotka-Volterra (LV)模型。該模型描述的是:相互競爭的兩個種群,它們種群數(shù)量之間的動態(tài)關(guān)系。我們根據(jù)該模型的理論,用深度學(xué)習(xí)和強化學(xué)習(xí)做了一個老虎和羊的多智體生態(tài)模型。我們發(fā)現(xiàn),如果關(guān)掉智體的學(xué)習(xí)能力(比如老虎),它們無法適應(yīng)新環(huán)境,生態(tài)系統(tǒng)很快崩潰。

    而給智體學(xué)習(xí)能力之后,模型出現(xiàn)的現(xiàn)象,與 LV 模型中猞猁抓兔子的動態(tài)現(xiàn)象十分相似。模擬出來的多智體生態(tài),和自然世界的生態(tài)圈都遵循一種動態(tài)的平衡,就好比多個 AI 智體形成了一個動物種群。這讓我們十分驚奇,人工智能體和生物群體可能有許多共同規(guī)律。

     這個研究很有意思的一點是,我們發(fā)現(xiàn)有這樣的場景:智體之間可以聯(lián)合在一起優(yōu)化某一個目標(biāo),或者單獨優(yōu)化它們自己的目標(biāo)。當(dāng)出現(xiàn)這兩種情況的時候,作為一個群體,他們就有了內(nèi)在的規(guī)律。如果把這些規(guī)律找到,對于我們?nèi)ラ_發(fā)一些新的模型、新的計算機人工智能的方法,是非常有幫助的。

    問題 2:缺乏對多智體環(huán)境控制的研究

    • 案例 6:宜家

    傳統(tǒng)強化學(xué)習(xí)沒有深入探索過多智體環(huán)境問題,而往往把它作為一個假設(shè)前提:要么假設(shè)這個環(huán)境是不變的,要么假設(shè)這個環(huán)境有一定的概率在不斷變化。而這個概率是不變的(not designable),意味著無法設(shè)計這個環(huán)境,而是更加適應(yīng)這個環(huán)境。但是實際情況下發(fā)現(xiàn),很多場景下,環(huán)境本身也需要一個適應(yīng)的過程。在宜家的熱力圖上,我們可以看出谷歌在商場里的活動是非常平均的,這是一個非常好的現(xiàn)象。我們可以開發(fā)一個強化學(xué)習(xí)算法,讓環(huán)境(商品擺放)根據(jù)顧客的變化而變化。鑒于此,我們在 UCL 的團(tuán)隊首創(chuàng)了對多智體環(huán)境的控制,并研究如何學(xué)習(xí)環(huán)境的深層因素。

    這是一個建筑系教授進(jìn)行的研究,他做了一個地圖模擬人在店鋪里面走的情況,根據(jù)熱力圖反饋到鋪面設(shè)計,來優(yōu)化用戶在這里面待的時間,或者說最大化用戶可能消費的情況。

    • 案例 7:分揀機器人

    單個智體(機器人)要進(jìn)行優(yōu)化,以最快的路徑分揀快遞包裹。這個環(huán)境未必是最優(yōu)的,我們根據(jù)貨物的統(tǒng)計特性,設(shè)計我把發(fā)往南京的包裹通道放在北京旁邊還是放在上海旁邊。所以環(huán)境也需要很好的考量和設(shè)計。

    • 案例 8:迷宮

    一個人工智體,需要以最快的效率找到出口。而環(huán)境知道其智能水平,根據(jù)情況來設(shè)計迷宮,使得智體有最困難或者最小的概率可以出去。這是一個競爭的關(guān)系。

    怎么優(yōu)化呢?你會發(fā)現(xiàn),該系統(tǒng)在兩個不同的維度進(jìn)行。在人工智體的情況下,它會說給定一個環(huán)境,我想以最快的效率、最優(yōu)的策略走出來。當(dāng)你把這個人工智體學(xué)到的東西定住以后,就可以在另外一個維度優(yōu)化環(huán)境:現(xiàn)在這個智體是這樣的屬性,能不能據(jù)此使得環(huán)境更困難?這兩個維度互相競爭、互相迭代,就可以達(dá)到優(yōu)化的情況。雷鋒網(wǎng)雷鋒網(wǎng)

    相關(guān)文章:

    第二屆 CCF-GAIR 開幕!中國 AI、機器人行業(yè)產(chǎn)學(xué)研跨界整合進(jìn)入新時期| CCF-GAIR 2017

    AAAI主席Subbarao:機器的學(xué)習(xí)過程與人類不一樣 | CCF - GAIR2017

    中科院院士譚鐵牛:模式識別研究的回顧與展望 | CCF-GAIR 2017

    CMU教授金出武雄演講:戶外機器人系統(tǒng) | CCF-GAIR 2017

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    UCL 教授汪軍:多智能體強化學(xué)習(xí)的兩大挑戰(zhàn) | CCF-GAIR 2017

    分享:
    相關(guān)文章

    用愛救世界
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 亚洲人成色99999在线观看| 国产精品久久久久免费观看| 亚洲日韩欧美自拍他拍| 日韩av一区二区三区精品| 欧美喷白浆| 香港三日本三级少妇三级视频| 欧美精品国产一区二区三区| 国产精品一区二区性色av| 亚洲欧美激情综合第1页| 国产精品久久久午夜夜伦鲁鲁| 91狠狠爱| 狠狠?综合?精品?伊人| 丁香五月天激情网| 欧美午夜福利| 国产jizz| 精品99在线黑丝袜| 欧美成a人片在线观看久| 男女爽爽无遮挡午夜视频| 【乱子伦】国产| 久久久久成人精品一区二区| 亚洲人成网网址在线看| 欧美一线天| 久久中文字幕网站篠田优| 最近中文字幕完整版2019| 中文字幕日本在线视频二区| 国产成人AV无码精品无毒| 她也色tayese在线视频| 亚洲图片视频丝袜| 狠狠v日韩v欧美v| 九九热在线精品视频| 狠狠?综合?精品?伊人| 熟女人妻aⅴ一区二区三区电影| 久久国产精品岛国搬运工| 亚洲毛片无码不卡AV在线播放 | 欧美日韩一区二区在线播放| 精品视频在线观看免费观看| 最新国产精品自拍一区| 精品国产一区二区色老头| 无码成人A| 国产亚洲精品久久久久久小舞| 国产精品三级一区二区三区|