• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發(fā)私信給楊曉凡
    發(fā)送

    0

    OpenAI提出層級強化學習,給長序列動作學習帶來新的曙光

    本文作者: 楊曉凡 2017-10-31 15:23
    導語:模仿人類行為帶來的又一個突破

    雷鋒網 AI 科技評論按:強化學習是學到一個策略解決智能體與環(huán)境間互動問題的重要學習范式。不過以往的強化學習過程都常常很低效,在復雜環(huán)境中往往難以收斂。這一方面由于簡單的策略難以完善、細致地描述各種不同環(huán)境狀態(tài)下的不同行為,另一方面也有由于可能的行為的組合太多所以要探索的空間太大了。

    OpenAI的研究人員們這次就開發(fā)了一個層次化的強化學習算法,它可以學習到高階的行動,用來解決一系列不同的任務,同時也可以快速學會解決總共需要上千個步驟的任務。當這個算法用來解決導航問題時,它能夠為不同方向的走或者爬行學到一系列高級別的動作,這也讓智能體能夠快速掌握新的導航任務。

    雷鋒網 AI 科技評論把OpenAI博客的介紹文章編譯如下。

    方法思路

    人類應對復雜問題的方法是把它們分解成一系列小的、可控的步驟。比如“做餡餅”就是由一系列高級別的行為組成的,取面粉、打雞蛋、攤在平底鍋內、設定烤箱等等。人類能夠快速學到新任務,靠的就是把已經學過的步驟組合起來,即便每個步驟都可能需要百萬個低級別的行動組成,像讓不同的肌肉做不同的動作這樣。

    然而,當前的強化學習算法的運行方式都是在低層次的行動中做暴力搜索,解決新問題的時候需要大量的嘗試。對于那些需要依次執(zhí)行很多個步驟的任務來說,這種搜索方法的效率就會變得非常低。

    OpenAI的研究人員們提出了一種基于層次化強化學習的解決方案。這種方法中,智能體用幾個高層次動作組成的序列表征復雜的行為。這樣一來,智能體就可以解決復雜得多的任務:整個解決方案中可能需要2000步左右的低層次動作,層次化策略就可以把它們轉化成10個高層次動作組成的序列,那么在這個10步動作的序列中進行搜索就比在2000步的序列中進行搜索高效得多。

    共享層次的元學習

    OpenAI提出層級強化學習,給長序列動作學習帶來新的曙光

    OpenAI 提出的算法 meta-learning shared hierarchies(共享層次的元學習,MLSH),能學到一個層次化的策略,其中的主策略可以在一系列子策略中進行切換。每經過N個時間步長,主策略就會選擇一個動作;這里的N可以等于200。一個執(zhí)行N個時間步長的子策略就構成了一個高級別的動作。在研究員們研究的導航問題中,一個子策略就對應了在一種不同的方向下走路或者爬行。

    在最開始的研究中,層次化策略都是顯式地手工編寫的。后來,他們把研究方向轉變?yōu)樽屇P驮谂c環(huán)境的互動中自動學到層次化結構。從元學習的角度,研究者們把好的層次結構定義為能夠在以前未見過的任務中迅速達到高回報的結構。這樣,MLSH算法的目標就變成了學到能夠在以前未見過的任務中快速學習的子策略。

    研究員們在許多不同的任務中訓練算法,其中的子策略是共享的,然后對于每個樣本任務學到一個新的主策略。在反復訓練新的主策略的過程中,它也能自動找到與主策略的學習表現最符合的子策略。

    實驗結果

    OpenAI提出層級強化學習,給長序列動作學習帶來新的曙光

    類似這個螞蟻機器人的智能體可以高效地探索空間,它能在向下、向右、向上三個策略之間切換,而不是隨機地做出各種嘗試。

    OpenAI提出層級強化學習,給長序列動作學習帶來新的曙光

    這個高層次策略都學會了利用一個敵人(子策略從未見過)來讓它更快地達到目標。采用的層次強化學習方法把大約需要3000個時間步長的迷宮問題簡化成了一個10步的子策略選擇問題。

    在訓練一整晚后,一個訓練用于解決9種不同迷宮的MLSH的智能體就學到了分別對應著向上、向右和向下的動作,然后它就可以用這些動作幫它走出迷宮。

    在“螞蟻迷宮”環(huán)境中,一個 Mujoco 螞蟻機器人被放在了9種不同的迷宮中,然后要從開始位置找到出口。OpenAI的新算法僅僅通過與環(huán)境互動就成功找到了一組各有不同的子策略,把它們組成序列后走出迷宮。這些訓練得到的子策略之后就可以用來解決更大的任務。

    雷鋒網 AI 科技評論編譯。

    論文地址:https://arxiv.org/abs/1710.09767 

    GitHub地址:https://github.com/openai/mlsh (包含訓練智能體的代碼和評估算法用到的Mujoco環(huán)境)

    OpenAI提出層級強化學習,給長序列動作學習帶來新的曙光

    分享:
    相關文章

    讀論文為生

    日常笑點滴,學術死腦筋
    當月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 色多多性虎精品无码av| 91国模| 亚洲都市激情| 国产精品无码无片在线观看3d| 亚洲日韩AV秘 无码一区二区| 99久久精品视香蕉蕉| 色99999| 亚洲系列国产精品制服丝袜第| 少妇高潮喷潮久久久影院| 粉嫩aⅴ一区二区三区| 印江| 老司机在线视频导航| 爱性久久久久久久久| 国内精品伊人久久久久影院对白| 61无码| 欧美在线日韩| 中文字幕一区二区三区精彩视频| 亚洲色一色噜一噜噜噜| 婷婷综合亚洲| 四虎亚洲一区二区三区| 熟女性饥渴一区二区三区| 超碰人人人| 日本在线a一区视频高清视频| 亚洲国产综合专区在线播放| 无码熟妇人妻av影音先锋| 亚洲日韩AV在线| 国产精品偷伦视频免费观看国产 | 狠狠色婷婷久久综合频道日韩| 亚洲精品一区二区三区新线路| 深夜福利网站| 农村欧美丰满熟妇xxxx| 一本久道中文无码字幕av| 亚洲 丝袜 另类 校园 欧美| 亚洲碰碰人人AV熟女天堂| 熟女免费| 亚洲综合成人av在线| 我把护士日出水了视频90分钟| 人妻尝试又大又粗久久| 亚洲精品国产福利一区二区| 久久av高潮av无码av喷吹| 特黄久久|