• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給汪思穎
    發送

    0

    OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    本文作者: 汪思穎 編輯:楊曉凡 2017-07-29 23:06
    導語:通過在網絡的參數空間中加入噪聲,可以獲得遠優于在網絡的行為空間中增加噪聲的表現。更簡單的方法,更優秀的效果。

    雷鋒網 AI科技評論按:OpenAI最新發現表明,通過在網絡的參數空間中加入噪聲,可以獲得遠優于在網絡的行為空間中增加噪聲的表現。此外,他們發布了一系列基準代碼,覆蓋多個網絡。

    雷鋒網 AI科技評論編譯如下:

    OpenAI實驗室最新發現:頻繁地給增強學習算法中的參數增加自適應噪聲后,能得到更好的結果。這種方法實現簡單,基本上不會導致結果變差,值得在任何問題上嘗試。

    OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    圖1:加入行為空間噪聲訓練的模型

    OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    圖2:加入參數空間噪聲訓練的模型

    參數噪聲可以幫助算法高效地探索出合適的動作范圍,在環境中獲得優良表現。如圖1、圖2所示,經過216個episode的訓練之后,沒有加入參數噪音的DDPG會頻繁產生低效的奔跑行為,而加入參數噪聲訓練之后產生的奔跑行為得分更高。

    增加參數噪聲后,智能體學習任務的速度變得更快,遠優于其他方法帶來的速度增長。在半獵豹運動環境(圖1、圖2)中經過20個episode的訓練之后,這項策略的得分在3000分左右,而采用傳統動作噪音訓練的策略只能得到1500分左右。

    參數噪聲方法是將自適應噪聲加在神經網絡策略的參數中,而不是加在行為空間。傳統的增強學習(RL)利用行為空間噪聲來改變智能體每一刻執行的動作的可能性。參數空間噪聲使智能體的參數直接增加了隨機性,改變了智能體做出的決策的類型,使它們總是能完全依賴于對當前環境的感知。這種技術介于進化策略(可以控制智能體的參數,但是當它在每一步中探索環境時,不會再次影響它的行為)和類似TRPO、DQN、DDPG這樣的深度增強學習方法之間 (不能控制參數,但可以在策略的行為空間上增加噪聲)。

    OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    圖3:左邊是行為空間噪聲,右邊是參數空間噪聲

    參數噪聲可以讓算法更高效的探索環境,得到更高的分數和更優雅的動作。因為有意的在策略參數中增加噪聲,能使智能體在不同時刻的探索保持一致,而在行為空間中增加噪聲,會讓探索過程更加難以預測,這種探索過程也就與智能體的參數沒有特定的關聯性。

    人們之前曾嘗試過將參數噪聲應用于策略梯度。在OpenAI的探索之下,這種方法現在可以用在更多地方了,比如用在基于深度神經網絡的策略中,或是用在基于策略和策略無關的算法中。

     OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    圖4:加入行為空間噪聲訓練的模型

    OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    圖5:加入參數空間噪聲訓練的模型

    如圖4、圖5所示,增加參數空間噪聲后可以在賽車游戲中獲得更高的分數。經過2個episode的訓練,訓練中在參數空間增加噪聲的DDQN網絡學會了加速和轉彎,而訓練中在行為空間增加了噪聲的網絡展現出的動作豐富程度就要弱很多。

    在進行這項研究時他們遇到了如下三個問題:

    • 不同層數的網絡對擾動的敏感性不同。

    • 在訓練過程中,策略權重的敏感性可能會隨著時間改變,這導致預測策略的行動變得很難。

    • 選取合適的噪聲很困難,因為很難直觀地理解訓練過程中參數噪音是怎么影響策略的。

    第一個問題可以用層級歸一化來解決,這可以保證受到了擾動的層的輸出(這個輸出是下一個層級的輸入)與未受擾動時的分布保持相似。

    可以引入一種自適應策略來調整參數空間擾動的大小,來處理第二和第三個問題。這一調整是這樣實現的:測量擾動對行為空間的影響和行為空間噪聲與預定目標之間的差異(更大還是更小)。這一技巧把選擇噪聲大小的問題引入行為空間,比參數空間具有更好的解釋性。

    選擇基準,進行benchmark

    OpenAI發布了一系列基準代碼,為DQN、雙DQN(Double DQN)、決斗DQN(Dueling DQN)、雙決斗DQN(Dueling Double DQN)和DDPG整合了這種技術。

    OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    此外,也發布了DDQN在有無參數噪聲下玩部分Atari游戲性能的基準。另外還有DDQN三個變體在Mujoco模擬器中一系列連續控制任務下的性能基準。

    研究過程

    在第一次進行這項研究時,OpenAI發現應用到DQN的Q函數中的擾動有時候太極端了,導致算法重復執行相同的動作。為了解決這個問題,他們添加了一個獨立的策略表達流程,能夠像在DDPG中一樣明顯的表示出策略(在普通的DQN網絡中,Q函數只能隱含的表示出策略),使設置與其他的實驗更相似。

    然而,在為這次發布準備代碼時,他們做了一次實驗,在使用參數空間噪聲時沒有加獨立的策略策略表達流程。

    他們發現實驗的結果與增加獨立策略表達流程之后的結果很相似,但實現起來更簡單。進一步的實驗證實獨立的策略頭確實是多余的,因為算法很可能在早期的實驗中就得到了改進(他們改變了調節噪聲的方式)。這種方法更簡單、更具有可行性,降低了訓練算法的成本,并且能得到相似的結果。

    重要的是要記住,AI算法(特別是在增強學習中)可能會出現一些細微的失敗,這種失敗會導致人們尋找解決方案的時候很難對癥下藥。

    雷鋒網 AI科技評論編譯。

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    OpenAI最新發現:在參數空間增加噪聲,易于實現,并能輕松加快學習速度

    分享:
    相關文章

    編輯

    關注AI學術,例如論文
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 欧洲成人av| 国产精品十八禁一区二区| 精品一区二区三区在线视频| 中文熟妇人妻av在线| 亚洲av日韩av永久无码电影| 成人爽a毛片免费| 亚洲成在人线AV品善网好看| 免费无码av片在线观看网址| 国产超高清麻豆精品传媒麻豆精品| 久久国产精品老女人| 亚洲高潮喷水中文字幕| 国产av无码专区亚洲aⅴ| 亚洲一卡久久4卡5卡6卡7卡| 九九热在线视频精品免费| 91人妻论坛| 册亨县| 狠狠色噜噜狠狠狠777米奇888| 中文国产乱码在线人妻一区二区| 怡红院一区二区三区在线| 中文字幕av无码一区二区三区 | 90后极品粉嫩小泬20p| 激情六月丁香婷婷四房播| 西西人体44www大胆无码| 国产精品亚洲日韩AⅤ在线观看 | 2021国产精品视频网站| 男女狂乱x0x0动态图在线观看| 91视频MBA| 国产偷国产偷亚洲高清午夜| 东京热无码大乱AV| 潼南县| аⅴ天堂国产最新版在线中文| 中文字幕乱码第三页| 国产婷婷丁香五月麻豆| 91牛牛| 亚洲人成网站在线无码| 人妻第一页| 精品人妻一| 国产精品无码无需播放器| 久久69国产精品久久69软件| 国产精品剧情亚洲二区| 国产186区|