• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    人工智能 正文
    發(fā)私信給楊曉凡
    發(fā)送

    0

    策略梯度下降過時了,OpenAI 拿出一種新的策略優(yōu)化算法PPO

    本文作者: 楊曉凡 2017-07-21 18:36
    導(dǎo)語:讓強(qiáng)化學(xué)習(xí)更容易學(xué)出成果,讓機(jī)器人更容易走得順溜

    雷鋒網(wǎng) AI 科技評論按:美國時間7月20日,OpenAI 剛剛通過自己的研究博客介紹了一種新的優(yōu)化算法 Proximal Policy Optimization(近端策略優(yōu)化,PPO)。據(jù)介紹,這種算法用在強(qiáng)化學(xué)習(xí)中時表現(xiàn)能達(dá)到甚至超過現(xiàn)有算法的頂尖水平,同時還更易于實(shí)現(xiàn)和調(diào)試。所以 OpenAI 已經(jīng)把PPO作為自己強(qiáng)化學(xué)習(xí)研究中首選的算法。雷鋒網(wǎng) AI 科技評論把這篇介紹 PPO 算法的博文編譯如下。

    策略梯度下降過時了,OpenAI 拿出一種新的策略優(yōu)化算法PPO

    圖中就是一個 OpenAI 利用 PPO 訓(xùn)練的機(jī)器人。它要學(xué)習(xí)走、跑、轉(zhuǎn)彎來嘗試接近球型的、隨機(jī)移動的目標(biāo);環(huán)境中還有一個會撞機(jī)器人的小球給它增大難度,所以它還要學(xué)會受到撞擊以后恢復(fù)平衡,甚至被撞倒以后重新站起來。

    現(xiàn)有算法

    近期的策略梯度的一類方法讓深度神經(jīng)網(wǎng)絡(luò)在控制任務(wù)中取得了明顯進(jìn)步,電腦游戲、三維運(yùn)動、圍棋都是很好的例子。但是用策略梯度的方法取得好的結(jié)果也有一些難度,因?yàn)檫@類方法對迭代步驟數(shù)非常敏感:如果選得太小,訓(xùn)練過程就會慢得令人絕望;如果選得太大,反饋信號就會淹沒在噪聲中,甚至有可能讓模型表現(xiàn)雪崩式地下降。這類方法的采樣效率也經(jīng)常很低,學(xué)習(xí)簡單的任務(wù)就需要百萬級至十億級的總迭代次數(shù)。

    為了解決方法中的這些問題,研究人員們已經(jīng)找到了 TRPO(Trust Region Policy Optimization,信任區(qū)域策略優(yōu)化)和 ACER(Sample Efficient Actor-Critic with Experience Replay,能高效采樣的帶有經(jīng)驗(yàn)回放的表演者-評論者算法) 這樣的方法,對策略更新的大小做出限制或者另外的優(yōu)化。達(dá)到了這樣的效果,這些方法也就在別的方面付出了代價:ACER 比 PPO復(fù)雜得多,需要額外的代碼用于策略外的糾正以及一個回放緩沖區(qū),在 Atari 測試中的具體表現(xiàn)卻只比 PPO 勉強(qiáng)好一點(diǎn)點(diǎn);TRPO 雖然在連續(xù)控制任務(wù)中很有用,但是對策略函數(shù)和價值函數(shù)或者輔助損失之間有共享參數(shù)的算法較難兼容,比如 Atari 和其它一些視覺輸入占據(jù)主要部分的任務(wù)就是這樣。

    PPO

    在監(jiān)督學(xué)習(xí)中,實(shí)現(xiàn)損失函數(shù)、在上面做梯度下降都很容易,而且基本上不費(fèi)什么功夫調(diào)節(jié)超參數(shù)就肯定能夠得到很好的結(jié)果。但是在強(qiáng)化學(xué)習(xí)中想要獲得好結(jié)果就沒有這么簡單了,算法中有許多變化的部分導(dǎo)致難以 debug,而且需要花很大的精力在調(diào)試上才能得到好結(jié)果。PPO 則在實(shí)現(xiàn)的難易程度、采樣復(fù)雜度、調(diào)試所需精力之間取得了新的平衡,它在每一步迭代中都會嘗試計(jì)算新的策略,這樣可以讓損失函數(shù)最小化,同時還能保證與上一步迭代的策略間的偏差相對較小。

    之前 OpenAI 就詳細(xì)介紹過 PPO的一個變種 (NIPS 2016 論文視頻:通過策略優(yōu)化進(jìn)行深度強(qiáng)化學(xué)習(xí)),其中用一個自適應(yīng) Kullback–Leibler 懲罰項(xiàng)控制每次迭代中的策略變化程度?,F(xiàn)在介紹的這種新變種則使用了一種其它算法中罕見的全新的目標(biāo)函數(shù):

    策略梯度下降過時了,OpenAI 拿出一種新的策略優(yōu)化算法PPO

    信任區(qū)域更新的功能就可以通過這種目標(biāo)函數(shù)得到實(shí)現(xiàn),它與隨機(jī)梯度下降兼容,而且移除了Kullback–Leibler 懲罰項(xiàng)及它的自適應(yīng)升級功能差,從而簡化了算法。在測試中,PPO 算法在連續(xù)控制任務(wù)中取得了最好的效果,而且在 Atari 游戲測試中的表現(xiàn)幾乎與 ACER 持平;考慮到 PPO 的簡便性,這樣的結(jié)果真是令人驚喜萬分。

    可控的復(fù)雜機(jī)器人

    策略梯度下降過時了,OpenAI 拿出一種新的策略優(yōu)化算法PPO

    OpenAI 的研究人員們設(shè)計(jì)了具有互動能力的機(jī)器人,然后用 PPO 訓(xùn)練它們的策略。在這些基于 Roboschool 環(huán)境的實(shí)驗(yàn)中,可以用鍵盤給機(jī)器人設(shè)定新的目標(biāo)位置;盡管輸入的目標(biāo)序列與用來訓(xùn)練機(jī)器人的序列不同,機(jī)器人仍然可以進(jìn)行泛化。

    策略梯度下降過時了,OpenAI 拿出一種新的策略優(yōu)化算法PPO

    除了 Roboschool 中這樣的簡單機(jī)器人,他們還用 PPO 教會復(fù)雜的仿真機(jī)器人走路,比如來自波士頓動力的 Atlas 的仿真模型。相比前面的雙足機(jī)器人的17個獨(dú)立關(guān)節(jié),這個模型中獨(dú)立關(guān)節(jié)的數(shù)目高達(dá)30個。也有一些其它的研究人員已經(jīng)成功借助 PPO 訓(xùn)練仿真機(jī)器人用精彩的跑酷動作跨越障礙(參見雷鋒網(wǎng) AI 科技評論文章 機(jī)器人走路未必笨拙,DeepMind新方法訓(xùn)練的人工智能走得就很飄逸 )。

    基準(zhǔn)模型:PPO 和 TRPO

    OpenAI 一并發(fā)布了包含大小可變的、并行實(shí)現(xiàn)的 PPO 和 TRPO 的基準(zhǔn)模型,兩者都用 MPI 作為數(shù)據(jù)傳遞模塊,Python3 和 TensorFlow 都可以支持。他們還把用于訓(xùn)練上文中的機(jī)器人的預(yù)訓(xùn)練模型增加到了 Roboschool 機(jī)器人動物園中。

    論文地址:https://arxiv.org/abs/1707.06347 

    基準(zhǔn)模型地址: https://github.com/openai/baselines 

    相關(guān)文章:

    機(jī)器人走路未必笨拙,DeepMind新方法訓(xùn)練的人工智能走得就很飄逸

    OpenAI發(fā)布開源軟件Roboschool,模擬機(jī)器人的控制訓(xùn)練

    策略梯度下降過時了,OpenAI 拿出一種新的策略優(yōu)化算法PPO

    分享:
    相關(guān)文章

    讀論文為生

    日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 国产91精选在线观看| 中文字幕人妻丝袜美腿乱 | 亚洲欧洲日韩久久狠狠爱| 精品久久久久久成人AV| 日本高清一区免费中文视频| 精品国精品无码自拍自在线| 狠狠色噜噜狠狠狠777米奇| 欧洲免费视频| 特黄大片又粗又大又暴| 精品国产成人一区二区| 亚洲a在线播放| 国产精品人妻一码二码尿失禁| 91美女在线观看| 日日躁夜夜躁狠狠躁超碰97| 国产乱人伦无无码视频| 日韩有码中文字幕一区二区| 制服丝袜亚洲在线| av无码精品一区二区三区四区| 精品人妻一区二区免费蜜桃| 国产又大又猛的三级视频| 国产精品欧美亚洲韩国日本久久| 国产天美传媒性色av高清| 人妻少妇偷人精品一区| 欧美视频专区一二在线观看| 日韩精品中文字幕 一区| 狠狠色噜噜噜噜狠狠狠狠狠狠奇米| 亚洲av日韩av综合在线观看| 亚洲国产欧美一区二区好看电影| 亚洲第一二三区日韩国产| jizz亚洲| 乱人伦人妻系列| 色yeye免费视频免费播放| 就去吻亚洲精品国产欧美 | 亚洲日本va午夜中文字幕一区| 欧美综合自拍亚洲综合图| 污网站免费看| 久草资源| 国产高清av首播原创麻豆| 无码专区 人妻系列 在线| 久久国产乱子精品免费女| 影音先锋2区|