• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給楊曉凡
    發送

    0

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    本文作者: 楊曉凡 2019-01-22 11:23
    導語:直接在真實世界訓練,想想都不放心……

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    雷鋒網 AI 科技評論按:相比于傳統方式中需要工程人員手動設計機器人每一個動作的精確參數,AI 時代的研究人員們有了一種全自動化的、有著廣闊前景的新學習方式:深度強化學習可以讓機器人從經驗、從與世界的互動中直接學習行為,因為它可以借助通用化的神經網絡表示,處理復雜的傳感器輸入。然而,許多現有的強化學習算法都需要幾天、幾周甚至更久時長的真實世界數據才能收斂到比較理想的動作。更重要的是,這樣的系統很難在復雜的機器人系統上使用(比如多足機器人),在系統的探索學習過程中很容易就會損傷到機器人的機械部件,同時還難以調節超參數,許多安全方面的考量也可能帶來更多的限制。

    近期,谷歌 AI 與 UC 伯克利大學合作研發了一種新的強化學習算法 Soft Actor-Critic(SAC)。這是一種穩定、高效的深度強化學習算法,它高度符合機器人實驗的需求,也就非常適合真實世界中的機器人技能學習。重點是,SAC 的學習效率足夠高,可以在數個小時內學會解決真實世界的機器人問題,而且同一套超參數可以在多種不同的環境中工作。

    谷歌 AI 撰寫博客介紹了 SAC 背后的一些研究工作,也介紹了相關的實驗結果。雷鋒網 AI 科技評論編譯如下。另外可以參見 OpenAI 先在模擬環境中訓練機器人,然后高效地遷移到真實機器人的研究。

    在真實世界中學習機器人的要求

    真實世界的機器人實驗有著一些重大的挑戰,比如硬件失效和人工重置會導致數據流經常中斷,以及需要讓探索學習過程平滑,避免快速的機械磨損或者撞擊破壞,這都對算法理論和算法的實現增加了額外的限制,包括以下(但不限于):

    • 有較高的樣本效率,以便降低學習時間;

    • 需要調節的超參數的數量盡量小;

    • 能在不同的場景中重復使用已經采集到的數據(也被稱作“無策略學習”);

    • 確保探索學習過程不損壞硬件;

    Soft Actor-Critic

    Soft Actor-Critic 是基于最大熵強化學習開發的,這是一種嘗試讓預期回報最大化(標準的強化學習目標),同時也讓策略的熵最大化的框架。熵更高的策略具有更高的隨機性,從直覺上看來,這意味著最大熵強化學習會學習出能取得高回報的策略中具有最高隨機性的那個策略。

    為什么在機器人學習中這是一件好事呢?一個明顯的原因是,為最大熵優化的策略會更為魯棒:如果策略在訓練過程中能夠允許高度隨機的動作,那么它在測試時候也就更有可能可以順利地應對預期不到的擾動。不過更穩妥的理由是,最大熵訓練不僅可以提高算法對超參數的魯棒性,也可以提高它的采樣效率。

    Soft Actor-Critic 會學習一個隨機策略,這個策略會把狀態映射到動作以及一個 Q 函數,這個 Q 函數會估計當前策略的目標價值,并通過逼近動態編程優化它們。通過這樣的方式,Soft Actor-Critic 可以讓經過熵強化的回報最大化。在這個過程中,SAC 會把目標看作一個絕對真的方法來導出更好的強化學習算法,它們的表現穩定,而且有足夠高的樣本效率,可以用在真實世界的機器人應用中。

    SAC 的表現

    研究人員們在兩個任務中評估了算法的表現:1,Ghost Robotics 環境中 Minitaur 四足機器人的行走;2,用一個三指動力爪轉動閥門。學習行走這件事當然是一個不小的挑戰了,由于機器人是欠驅動的,所以機器人需要學會如何在四只腿之間平衡接觸力的大小,這樣才能持續往前走。未經訓練的策略會讓機器人失去平衡摔倒,而如果摔了太多次,最終是有可能把機器人摔壞的。樣本高效的學習在這時候也就非常關鍵。

    雖然研究人員們是在平地上訓練的機器人行走策略,但稍后的測試階段是在多種不同的地面狀況和障礙物上進行的。理論上來說,通過 SAC 學習到的策略在測試時遇到擾動的時候也應當是魯棒的。而實際上研究人員們也觀察到,通過他們的方法學習到的策略不需要任何額外的學習就可以應對這些擾動。

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    訓練

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    測試 1

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    測試 2

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    測試 3

    下面這個操控任務需要機械手轉動一個類似閥門的物體,目標是讓藍色的一面朝向右側。這個任務尤其有挑戰性,不僅任務的理解感知有難度,而且還需要控制這個具有 9 個自由度的機械手。為了能夠感知這個閥門,機器人必須要使用來自攝像頭的原始 RGB 圖像輸入(如圖右下角)。對于每一輪嘗試,閥門的位置都會重新設定到一個隨機角度,迫使策略學習如何根據 RGB 圖像輸入感知當前的閥門角度。

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    對于這兩個任務,SAC 都能很快地解決:前一個四足機器人任務學了 2 個小時,后一個觀察圖像、轉動閥門的任務學習了 20 個小時。研究人員們也為轉動閥門任務學習了一個無需圖像輸入的策略,他們把其它方式采集到的閥門角度作為觀察結果輸入給策略,在這種簡單的設置下 SAC 只需要 3 個小時就可以學會解決這個任務。相比之下,更早的使用自然策略梯度的研究學習同一個無需圖像輸入的任務需要花 7.4 個小時。

    結論

    這項研究展示了基于熵最大化框架的深度強化學習可以用來在有挑戰性的真實世界環境中學習機器人技能。由于這些策略是直接在真實世界中學習到的,它們對環境中的變化表現出了魯棒性,這通過其他方式是很難獲得的。研究人員們也展示了他們可以直接從高維圖像觀察中學習,這對經典機器人控制來說也是一個很大的挑戰。研究人員們希望 SAC 的發表可以幫助其他的研究團隊一同更好地把深度強化學習應用在未來更多的復雜真實世界任務中。

    閱讀原論文可見:https://arxiv.org/abs/1812.05905

    via ai.googleblog.com,雷鋒網 AI 科技評論編譯

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實世界訓練機器人

    分享:
    相關文章

    讀論文為生

    日常笑點滴,學術死腦筋
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 亚洲中文字幕A| 久久亚洲色WWW成人男男| 国产精品99精品无码视亚| 国产免费久久精品44| 欧美一级鲁丝片免费一区| 国产三级自拍视频在线| 亚洲中文日韩一区二区三区| 中文字幕人妻中出制服诱惑| 最新影音AV网站| 樟树市| 国产精品刺激对白在线| 欧美日韩一区二区视频免费看| 精品久久久久久无码免费| 色综合色综合色综合频道| 国产精品综合| 国产精品白浆无码流出| 色综合久久久久综合体桃花网| 男人一天堂精品国产乱码| 综合网视频| 又大又紧又粉嫩18p少妇| 久久综合亚洲色一区二区三区| 国产极品嫩模在线观看91| 免费又爽又大又高潮视频| 非会员区试看120秒6次| 夊夊夊夂夂夂夂夂夂夂亚洲亚洲亚洲亚洲色色色 | 尹人久久| 91丨九色丨人妻丨白浆| 高潮喷水抽搐无码免费| xxxx国产| 熟女黄色的视频网站| 四虎精品国产永久免费| 亚洲成人av综合一区| 中文字幕亚洲人妻系列| 色欲av狠狠躁天天躁| 亚洲av无码牛牛影视在线二区| 加勒比无码人妻东京热| 国内精品视频一区二区三区八戒| 国产精品午夜福利免费看| 最新国产精品中文字幕| 亚洲日韩AV在线| 国产在线精品香蕉麻豆|