• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能開發者 正文
    發私信給AI研習社-譯站
    發送

    0

    開源巨獻:27個深度強化學習算法的實例項目

    本文作者: AI研習社-譯站 2020-11-25 10:47
    導語:在這里,您可以找到幾個致力于“深度強化學習”方法的項目。

    譯者:AI研習社(宋怡然

    雙語原文鏈接:Deep Reinforcement Learning Nanodegree Algorithms


    在這里,您可以找到幾個致力于“深度強化學習”方法的項目。 項目以矩陣形式部署:[env x model],其中env是要解決的環境,而model是解決該環境的模型/算法。 在某些情況下,可以通過幾種算法來解決同一環境。 所有項目均以包含培訓日志的Jupyter筆記本的形式呈現。
    支持以下環境:

    AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.

    在Udacity深度強化學習學位計劃的框架內解決了四個環境(導航,爬蟲,到達者,網球)。

    蒙特卡洛方法 

    在蒙特卡洛(MC)中,我們玩游戲的情節直到到達終點,我們從途中獲得了獎勵然后返回情節的開始。 我們重復此方法至足夠的次數,然后平均每個狀態的值。

    時差方法與Q學習

    連續空間中的強化學習(深度Q網絡)

    函數逼近和神經網絡

    通用逼近定理(UAT)規定,只要滿足有關激活函數形式的輕微假設,就可以使用包含具有有限數量節點的單個隱藏層的前饋神經網絡來近似任何連續函數。

    基于策略的方法爬山模擬退火

    在許多情況下,隨機重啟爬山是一種出奇的有效算法。 模擬退火是一種很好的概率技術,因為它不會偶然錯誤地將局部極值作為全局極值。

    策略漸變方法REINFORCEPPO

    定義一個性能指標J(\ theta)以使其最大化。 通過近似梯度上升來學習策略參數\ theta。

    關鍵行為法A3CA2CDDPGTD3SAC

    A3C與A2C的主要區別在于異步部分。  A3C由具有權重的多個獨立代理(網絡)組成,它們與環境的不同副本并行進行交互。 因此,他們可以在更少的時間內探索狀態-行動空間的更大部分。

    項目,模型和方法

    AntBulletEnvSoft Actor-Critic (SAC)

    BipedalWalker, Twin Delayed DDPG (TD3)

    BipedalWalker, PPO, Vectorized Environment

    BipedalWalker, Soft Actor-Critic (SAC)

    BipedalWalker, A2C, Vectorized Environment

    CarRacing with PPO, Learning from Raw Pixels

    CartPole, Policy Based Methods, Hill Climbing

    CartPole, Policy Gradient Methods, REINFORCE

    Cartpole, DQN

    Cartpole, Double DQN

    HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)

    HopperBulletEnv, Twin Delayed DDPG (TD3)

    HopperBulletEnv, Soft Actor-Critic (SAC)

    LunarLander-v2, DQN

    LunarLanderContinuous-v2, DDPG

    Markov Decision Process, Monte-Carlo, Gridworld 6x6

    MinitaurBulletEnv, Soft Actor-Critic (SAC)

    MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)

    Pong, Policy Gradient Methods, PPO

    Pong, Policy Gradient Methods, REINFORCE

    Snake, DQN, Pygame

    Udacity Project 1: Navigation, DQN, ReplayBuffer

    Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)

    Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler

    Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis

    Walker2DBulletEnv, Twin Delayed DDPG (TD3)

    Walker2DBulletEnv, Soft Actor-Critic (SAC)

    DQN和Double DQN的項目

    PPO的項目

    TD3的項目

    Soft Actor-Critic (SAC) 的項目

    BipedalWalker,與不同模型的混合

    CartPole與不同模型的混合

    更多鏈接

    • 有關Policy-Gradient Methods策略梯度方法,參見 123.

    • 有關 REINFORCE,參見 123.

    • 有關 PPO,參見 12345.

    • 有關 DDPG,參見 12.

    • 有關 Actor-Critic MethodsA3C,參見 1234.

    • 有關 TD3,參見 123

    • 有關 SAC,參見 12345

    • 有關 A2C,參見 12345 

    TowardsDataScience網站上的文章

    貝爾曼方程式在深度強化學習中如何工作?

    深度Q網絡中一對相互關聯的神經網絡

    深度強化學習的三個方面:噪聲,高估和探索

    我在上述項目中開發的相關視頻


    AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平臺,致力成為中國最大的科技創新人才聚集地。

    如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

    開源巨獻:27個深度強化學習算法的實例項目

    開源巨獻:27個深度強化學習算法的實例項目

    分享:
    相關文章

    知情人士

    AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 亚洲自拍三区| 亚洲一区二区在线无码| 久久精品国产亚洲av麻豆长发| 久久精品成人无码观看| 国产麻豆精品久久一二三| 激情五月天俺也去综合网| 区一区二区三区中文字幕| 日韩va| 久色亚洲| 成人网在线视频| 丁香婷婷无码不卡在线| 亚洲一区二区精品动漫| 色99999| 一级毛片在线免费视频| 又黄又刺激又黄又舒服| 国内自拍视频在线一区| 亚洲国产美国产综合一区| 精品超清无码视频在线观看| 国产丝袜在线精品丝袜| 少妇高潮水多太爽了动态图| 亚洲精品国产AV| 亚欧美国产色| 欧美成人国产精品高潮| 亚洲自偷自偷在线成人网站传媒| 视频一区二区 国产视频| 97无码视频| 暴雨被公侵犯的人妻3| 中文字幕在线播放不卡| 亚洲色大成网站www久久九九 | 国产69囗曝护士吞精在线视频| 色偷偷亚洲女人天堂观看| 一级黄片国产精品久久| 在线看成年人毛片66| 手机在线免费av网站| 日本精品极品视频在线| 亚洲人黑人一区二区三区| 国产成AV人片在线观看天堂无码| 中文字幕久久久| 国产极品尤物免费在线| 国产精品一区二区久久精品无码| 国产精品三级中文字幕|