• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    本文作者: 我在思考中 2021-11-19 18:09
    導語:人還能模仿獵豹走路?Gromov-Wasserstein模仿學習了解一下。
    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習
    Stuart Russell等人使用Gromov-Wasserstein距離來對齊和比較智能體不同空間之間的狀態(tài),從而使人模仿獵豹走路成為可能。
    編譯 | 杏花

    編輯 | 青暮

    跨域模仿學習研究的是如何利用一個智能體的專家演示來訓練一個具有不同實施方式或形態(tài)的模仿智能體。比較專家智能體和模仿智能體之間的軌跡和平穩(wěn)分布是具有挑戰(zhàn)性的,因為它們生活在不同的系統(tǒng)中,甚至可能不具有相同的維數(shù)。

    近日,來自加州大學伯克利分校人工智能實驗室、倫敦大學學院和 Facebook AI 的研究人員在一篇論文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿學習(GWIL),這是一種跨域模仿的方法,使用 Gromov-Wasserstein 距離來對齊和比較智能體不同空間之間的狀態(tài)。

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    論文地址:https://arxiv.org/pdf/2110.03684v1.pdf


    1

    研究背景

    強化學習(RL)已經(jīng)在許多領域取得了令人驚艷的成果。然而,當前RL的有效性與訓練獎勵的質量密切相關。但是,對于許多現(xiàn)實世界的任務來說,設計密集且信息豐富的獎勵需要大量的工程工作。為了減輕這種工作量,模仿學習(IL)建議直接從專家演示中學習。

    但是,當前大多數(shù)的 IL 方法僅可以應用于最簡單的設置,在這種設置中,專家和智能體共享相同的實施和轉換動態(tài),它們生活在相同的狀態(tài)和動作空間。尤其是這些方法需要來自智能體域的專家演示。

    因此,論文的研究人員重新考慮了 IL 的效用,因為它似乎只是將問題從設計信息性獎勵遷移到提供專家演示,而不是解決問題。然而,如果放寬當前 IL 方法的約束設置,那么真正減輕工程量的自然模仿場景就會出現(xiàn)。事實上,不需要相同的動力學就能使智能體模仿不同形態(tài)的人類和機器人,從而廣泛擴大 IL 的適用性,并減輕對域內專家演示的需求。

    這種專家演示來自另一個域的寬松設置已成為更具現(xiàn)實假設意義的新興領域,被稱為跨域模仿學習。這些工作的一個共同策略是學習專家域和智能體域之間的映射。為此,它們需要訪問智能體任務,在這些任務中,專家和智能體都在各自的域中發(fā)揮最優(yōu)作用。在一定的結構假設下,該映射能夠在保持最優(yōu)性的前提下,將專家域內的軌跡轉化為智能體域內的軌跡。雖然這些方法確實放寬了 IL 的典型設置,但對代理任務的要求嚴重限制了跨域 IL 的適用性。例如,它排除了模仿以前從未見過的專家以及轉移到新機器人的可能性。

    本篇論文中,研究人員放寬了跨域 IL 的假設,提出了一個不需要訪問智能體任務的基準和方法。為此,研究人員脫離了先前工作的觀點,將跨域 IL 形式化為最優(yōu)傳輸問題,提出了一種Gromov-Wasserstein模仿學習方法(GWIL),該方法使用 Gromov-Wasserstein 距離來求解基準。研究者們論文里正式描述了 GWIL 保持最優(yōu)性的場景,揭示了其可能性和局限性。實驗表明,在非平凡連續(xù)控制設置中,GWIL通過一個單一的演示從另一個域學習最優(yōu)行為,而不需要任何智能體任務。



    2

    相關工作

    模仿學習。IL 的早期研究方法是行為克隆,這相當于通過監(jiān)督學習訓練分類器或回歸器來復制專家的演示。另一種關鍵方法是逆強化學習,它旨在學習一個獎勵函數(shù),在該獎勵函數(shù)下觀察到的演示是最優(yōu)的,然后可以通過 RL 來訓練智能體。

    為了跳過學習專家獎勵函數(shù),Ho & Ermon 證明了 RL 是占用度量匹配問題的對偶,并提出了一個對抗性目標,該目標的優(yōu)化近似恢復專家的狀態(tài)-動作占用度量,以及使用生成式對抗網(wǎng)絡的實用算法。雖然最近的一些工作旨在改進該算法相對于由極大極小優(yōu)化引起的訓練不穩(wěn)定性,Primal Wasserstein模仿學習(PWIL)和 Sinkhorn 模仿學習(SIL)將 IL視為占用措施之間的最優(yōu)傳輸問題,以完全消除極大極小目標,并在樣本效率方面優(yōu)于對抗性方法。

    還有其他研究人員將模仿學習擴展到復雜的類人運動和非瑣碎設置中的游戲行為。從 Wasserstein 到 Gromov-Wasserstein,該論文工作是對 Dadashi 等人以及 Papagiannis 和 Li 的延伸,從而超越了專家和模仿者在同一域中的限制,并進入了生活在不同空間中的智能體之間的跨域設置。

    跨域和形態(tài)的遷移學習。在 RL 中,不同域之間傳遞知識的工作通常會學習狀態(tài)空間和動作空間之間的映射。Ammar 等人使用無監(jiān)督流形對齊,在具有相似局部幾何形狀但假定可以獲得手工制作特征的狀態(tài)之間找到線性映射。最近在跨視點遷移學習和實施例不匹配方面的工作學習了不需要手工特性的狀態(tài)映射,但假設可以從兩個領域獲得成對和時間對齊的演示。

    此外,Kim 等人和 Raychaudhuri 等人提出了從未配對和未對齊任務中學習狀態(tài)映射的方法。所有這些方法都需要智能體任務,即來自兩個域的一組專家演示,這限制了這些方法在現(xiàn)實世界中的適用性。Stadie等人提出將對抗學習和域混淆結合起來,在不需要智能體任務的情況下在智能體域學習策略,但他們的方法僅適用于小視點不匹配的情況。Zakka等人采用目標驅動的觀點,試圖模擬任務進程,而不是匹配細粒度的結構細節(jié),以便在物理機器人之間轉換。

    相比之下,這篇論文的方法不依賴于學習智能體之間的顯式跨域潛在空間,也不依賴于智能體任務。GromovWasserstein 距離使研究人員能夠在沒有共享空間的情況下直接比較不同的空間。現(xiàn)有基準測試任務假設可以訪問來自兩個智能體的一組演示,而這篇論文中的實驗僅假設可以訪問專家演示。

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    圖注:等距策略在平穩(wěn)分布的狀態(tài)-動作空間內具有相同的成對距離。在歐幾里得空間中,等距變換保留了這些成對距離并包括旋轉、平移和反射。

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    圖注:Gromov-Wasserstein 距離使我們能夠比較具有不同動態(tài)和狀態(tài)-動作空間的兩個智能體的平穩(wěn)的狀態(tài)-動作分布。我們將其用作跨域模仿學習的偽獎勵。

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    圖注:給定專家域(a)中的單個專家軌跡,GWIL 在沒有任何外部獎勵的情況下恢復智能體域(b)中的最優(yōu)策略。綠點表示初始狀態(tài)位置,當智能體達到紅色方塊表示的目標時,事件結束。



    3

    實驗結果

    論文的研究人員提出了一個由 3 個任務組成的跨域 IL 方法的基準集,旨在回答以下問題:

    1. 當智能體域是專家域的剛性變換時,GWIL能否恢復最優(yōu)行為?這是可以的,論文的作者們用迷宮證明了這一點。

    2. 當智能體的狀態(tài)和行動空間與專家不同時,GWIL能否恢復最優(yōu)行為?這也是可以的,本篇論文中,作者們展示了倒立擺(cartpole)和鐘擺(pendulum)之間輕微不同的狀態(tài)-動作空間以及步行者(walker)和獵豹(cheetah)之間顯著不同的空間。

    為了回答這兩個問題,研究人員使用了在 Mujoco 和 DeepMind 控制套件中實現(xiàn)的模擬連續(xù)控制任務。該學習策略的視頻可在論文的項目網(wǎng)站上訪問。在所有設置中,作者在dE和dA的專家和智能體空間中使用歐幾里得度量。

    學習策略地址:https://arnaudfickinger.github.io/gwil/

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    圖注:給定鐘擺域(上圖)中的單個專家軌跡,GWIL 在沒有任何外部獎勵的情況下恢復智能體域(倒立擺,下圖)中的最優(yōu)行為。

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    圖注:給定獵豹域(上圖)中的單個專家軌跡,GWIL 恢復智能體域(步行者)中最優(yōu)策略等距類的兩個元素,向前移動是最優(yōu)的(中間),向后移動是次優(yōu)的(下圖)。有趣的是,由此產(chǎn)生的步行者的行為就像一只獵豹。

    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    雷峰網(wǎng)(公眾號:雷峰網(wǎng))


    如何讓人模仿獵豹走路?Stuart Russell提出基于最優(yōu)傳輸?shù)目缬蚰7聦W習

    分享:
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产在线欧美一区二区| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区 | 亚洲国产成人久久综合一区| 无码人妻av免费一区二区三区| 免费AV观看| 日日日夜夜摸| 18禁无遮挡羞羞污污污污网站| 国产精品一品二区三四区| 亚洲精品久久麻豆蜜桃| www.91大神.com| 国产一区日韩二区欧美三区| 黄瓜视频91| 肃北| 国产成人国产在线观看| 国产精品高清视亚洲精品| 青青草原网站在线观看| 亚洲男人天堂2022| 日韩精品人妻中文字在线| 亚洲人成人影院在线观看| 日本久久高清一区二区三区毛片| 999精品免费视频| 放荡的少妇2欧美版| 欧美人与动zozo在线播放| 啪一啪射一射插一插| 亚洲日本韩在线观看| 亚洲综合色婷婷中文字幕| 欧美日韩精品一区二区视频| 亚洲综合电影| 国产成人精品日本亚洲直接| 国产精品久久久久婷婷五月| 丝袜A片午夜www丝袜| 亚洲av综合网| 国产成+人+亚洲+欧美综合| 久久热这里只有精品66| 91视频在线免费观看| 哟哟无码| 欧美成人欧美va天堂在线电影| 亚洲熟妇一区二区三个区| 亚洲AV无码久久精品色欲| 亚洲久久天堂| 亚洲欧美日韩中文字幕网址|