• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給楊曉凡
    發送

    0

    策略梯度下降過時了,OpenAI 拿出一種新的策略優化算法PPO

    本文作者: 楊曉凡 2017-07-21 18:36
    導語:讓強化學習更容易學出成果,讓機器人更容易走得順溜

    雷鋒網 AI 科技評論按:美國時間7月20日,OpenAI 剛剛通過自己的研究博客介紹了一種新的優化算法 Proximal Policy Optimization(近端策略優化,PPO)。據介紹,這種算法用在強化學習中時表現能達到甚至超過現有算法的頂尖水平,同時還更易于實現和調試。所以 OpenAI 已經把PPO作為自己強化學習研究中首選的算法。雷鋒網 AI 科技評論把這篇介紹 PPO 算法的博文編譯如下。

    策略梯度下降過時了,OpenAI 拿出一種新的策略優化算法PPO

    圖中就是一個 OpenAI 利用 PPO 訓練的機器人。它要學習走、跑、轉彎來嘗試接近球型的、隨機移動的目標;環境中還有一個會撞機器人的小球給它增大難度,所以它還要學會受到撞擊以后恢復平衡,甚至被撞倒以后重新站起來。

    現有算法

    近期的策略梯度的一類方法讓深度神經網絡在控制任務中取得了明顯進步,電腦游戲、三維運動、圍棋都是很好的例子。但是用策略梯度的方法取得好的結果也有一些難度,因為這類方法對迭代步驟數非常敏感:如果選得太小,訓練過程就會慢得令人絕望;如果選得太大,反饋信號就會淹沒在噪聲中,甚至有可能讓模型表現雪崩式地下降。這類方法的采樣效率也經常很低,學習簡單的任務就需要百萬級至十億級的總迭代次數。

    為了解決方法中的這些問題,研究人員們已經找到了 TRPO(Trust Region Policy Optimization,信任區域策略優化)和 ACER(Sample Efficient Actor-Critic with Experience Replay,能高效采樣的帶有經驗回放的表演者-評論者算法) 這樣的方法,對策略更新的大小做出限制或者另外的優化。達到了這樣的效果,這些方法也就在別的方面付出了代價:ACER 比 PPO復雜得多,需要額外的代碼用于策略外的糾正以及一個回放緩沖區,在 Atari 測試中的具體表現卻只比 PPO 勉強好一點點;TRPO 雖然在連續控制任務中很有用,但是對策略函數和價值函數或者輔助損失之間有共享參數的算法較難兼容,比如 Atari 和其它一些視覺輸入占據主要部分的任務就是這樣。

    PPO

    在監督學習中,實現損失函數、在上面做梯度下降都很容易,而且基本上不費什么功夫調節超參數就肯定能夠得到很好的結果。但是在強化學習中想要獲得好結果就沒有這么簡單了,算法中有許多變化的部分導致難以 debug,而且需要花很大的精力在調試上才能得到好結果。PPO 則在實現的難易程度、采樣復雜度、調試所需精力之間取得了新的平衡,它在每一步迭代中都會嘗試計算新的策略,這樣可以讓損失函數最小化,同時還能保證與上一步迭代的策略間的偏差相對較小。

    之前 OpenAI 就詳細介紹過 PPO的一個變種 (NIPS 2016 論文視頻:通過策略優化進行深度強化學習),其中用一個自適應 Kullback–Leibler 懲罰項控制每次迭代中的策略變化程度。現在介紹的這種新變種則使用了一種其它算法中罕見的全新的目標函數:

    策略梯度下降過時了,OpenAI 拿出一種新的策略優化算法PPO

    信任區域更新的功能就可以通過這種目標函數得到實現,它與隨機梯度下降兼容,而且移除了Kullback–Leibler 懲罰項及它的自適應升級功能差,從而簡化了算法。在測試中,PPO 算法在連續控制任務中取得了最好的效果,而且在 Atari 游戲測試中的表現幾乎與 ACER 持平;考慮到 PPO 的簡便性,這樣的結果真是令人驚喜萬分。

    可控的復雜機器人

    策略梯度下降過時了,OpenAI 拿出一種新的策略優化算法PPO

    OpenAI 的研究人員們設計了具有互動能力的機器人,然后用 PPO 訓練它們的策略。在這些基于 Roboschool 環境的實驗中,可以用鍵盤給機器人設定新的目標位置;盡管輸入的目標序列與用來訓練機器人的序列不同,機器人仍然可以進行泛化。

    策略梯度下降過時了,OpenAI 拿出一種新的策略優化算法PPO

    除了 Roboschool 中這樣的簡單機器人,他們還用 PPO 教會復雜的仿真機器人走路,比如來自波士頓動力的 Atlas 的仿真模型。相比前面的雙足機器人的17個獨立關節,這個模型中獨立關節的數目高達30個。也有一些其它的研究人員已經成功借助 PPO 訓練仿真機器人用精彩的跑酷動作跨越障礙(參見雷鋒網 AI 科技評論文章 機器人走路未必笨拙,DeepMind新方法訓練的人工智能走得就很飄逸 )。

    基準模型:PPO 和 TRPO

    OpenAI 一并發布了包含大小可變的、并行實現的 PPO 和 TRPO 的基準模型,兩者都用 MPI 作為數據傳遞模塊,Python3 和 TensorFlow 都可以支持。他們還把用于訓練上文中的機器人的預訓練模型增加到了 Roboschool 機器人動物園中。

    論文地址:https://arxiv.org/abs/1707.06347 

    基準模型地址: https://github.com/openai/baselines 

    相關文章:

    機器人走路未必笨拙,DeepMind新方法訓練的人工智能走得就很飄逸

    OpenAI發布開源軟件Roboschool,模擬機器人的控制訓練

    策略梯度下降過時了,OpenAI 拿出一種新的策略優化算法PPO

    分享:
    相關文章

    讀論文為生

    日常笑點滴,學術死腦筋
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产极品尤物久久精品| 亚洲国产aⅴ成人精品无吗| 东京热人妻系列无码专区| 精品福利视频导航| 真人抽搐一进一出视频| 成人精品色一区二区三区| 国产精成人| 一本色道久久99精品综合 | 97久久精品亚洲中文字幕无码| 麻花传媒剧电影| 日本抽搐一进一出gif免费| 玖玖一区| 亚洲中文字幕一区精品自| 亚洲欧美日韩综合久久久| 猫咪TV的最新网名自动跳转| 久久久久久免费儿子和妈潢色大片| 久久99国产精品久久99无号码| 九区视频免费观看| 午夜成人无码免费看网站| 亚洲精品动漫免费二区| 玩弄人妻少妇500系列| 韩国三级Hb久久精品| 午夜久久久久久久免费大片| 久操线在视频在线观看| 免费看欧美全黄成人片| 日韩va中文字幕无码电影| 久久久久久久久久8888| 精品国产成人a在线观看| 看亚洲黄色不在线网占| 亚洲精品一区国产精品| 夜夜高潮次次欢爽av女| www插插插无码免费视频网站| jizzjizz亚洲| 久久亚洲熟女cc98cm| 济阳县| 亚洲人成网站色7799在线观看| 四虎18| 国产亚洲av嫩草久久| 久久这里只精品热免费99| 日韩a级?a级| 精品人妻系列无码人妻漫画|