• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
    業(yè)界 正文
    發(fā)私信給李雨晨
    發(fā)送

    0

    谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

    本文作者: 李雨晨 2019-12-11 08:59 專題:NeurIPS 2019
    導(dǎo)語:增強(qiáng)型學(xué)習(xí)智能體Dreamer12月5日消息,來自谷歌大腦,DeepMind以及多倫多大學(xué)的研究人員們近日發(fā)表了一篇名為《夢想控制:通過潛意識的學(xué)習(xí)行為》的新研

    谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

    在具有挑戰(zhàn)性的環(huán)境中,一些人工智能系統(tǒng)通過利用過去經(jīng)驗(yàn)所提供的世界表象來實(shí)現(xiàn)目標(biāo)。研究人員將這些應(yīng)用推廣到新的情況,使它們能夠在以前從未遇到過的環(huán)境中完成任務(wù)。

    事實(shí)證明,強(qiáng)化學(xué)習(xí)——一種使用獎勵來推動軟件策略朝著目標(biāo)前進(jìn)的訓(xùn)練技術(shù)——特別適合學(xué)習(xí)一個總結(jié)agent經(jīng)驗(yàn)的世界模型,并通過擴(kuò)展來促進(jìn)新行為的學(xué)習(xí)。

    雷鋒網(wǎng)消息,近日,來自Google、Alphabet子公司DeepMind和多倫多大學(xué)的研究人員發(fā)表了一篇名為《夢想控制:通過潛意識的學(xué)習(xí)行為》的新研究,他們開發(fā)了一個增強(qiáng)型學(xué)習(xí)智能體Dreamer,通過內(nèi)化一個世界模型,并通過通過潛在的“想象力”來提前計(jì)劃選擇行動。

    他們說,Dreamer不僅適用于任何學(xué)習(xí)目標(biāo),而且在數(shù)據(jù)效率、計(jì)算時間以及最終性能方面都超過了現(xiàn)有的方法。

    在它的整個生命周期中,無論是交錯還是并行,Dreamer都會學(xué)習(xí)一個latent dynamics model(潛在動力學(xué)模型),以預(yù)測動作和觀察結(jié)果的回報(bào)。在這種情況下,“l(fā)atent dynamics model”是指從圖像輸入中學(xué)習(xí)并執(zhí)行計(jì)劃以收集新經(jīng)驗(yàn)的模型。

    “潛在”表示它依賴于隱藏狀態(tài)或潛在狀態(tài)的緊湊序列,這使它能夠?qū)W習(xí)更多抽象的表示形式,例如對象的位置和速度。使用編碼器組件,有效地將來自輸入圖像的信息集成到隱藏狀態(tài)中,然后及時地將隱藏狀態(tài)向前投影以預(yù)測圖像和獎勵。

    谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

    上圖:Dreamer完成一個擺動鐘擺的任務(wù)。中間顯示45步預(yù)測

    Dreamer使用了一個多部分的latent dynamics model,這個模型的結(jié)構(gòu)有些復(fù)雜。“表示”位對觀察和動作進(jìn)行編碼,而“過渡”位則在沒有看到會引起觀察的情況下預(yù)見狀態(tài)。第三個組件(獎勵組件)根據(jù)給定的模型狀態(tài)來投影獎勵,而行為模型將實(shí)施學(xué)習(xí)的策略并旨在預(yù)測可解決想象的環(huán)境的行為。最終,價(jià)值模型評估行動模型實(shí)現(xiàn)的預(yù)期想象獎勵,而觀察模型提供反饋信號。

    谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

    上圖:夢想家在迷宮中導(dǎo)航。中間顯示45步預(yù)測。

    雷鋒網(wǎng)了解到,在一系列實(shí)驗(yàn)中,研究人員測試了Dreamer在DeepMind Control Suite中的20個視覺控制任務(wù)上的效果,DeepMind Control Suite是一種用于評估機(jī)器學(xué)習(xí)驅(qū)動的代理的仿真軟件。

    他們首先使用Nvidia V100圖形芯片和10個處理器內(nèi)核來訓(xùn)練它,每次培訓(xùn)運(yùn)行一次。他們說,控制套件上每106個環(huán)境步驟花費(fèi)了9個小時。(相比之下,Google的Dreamer前身PlaNet花了17個小時才達(dá)到了類似的性能。)

    谷歌新智能體Dreamer將亮相NeurIPS 2019,數(shù)據(jù)效率比前身PlaNet快8個小時

    上圖:夢想家在玩Atari游戲(拳擊)。中間顯示45步預(yù)測。

    研究人員報(bào)告說,Dreamer有效地利用了學(xué)習(xí)的世界模型來從少量經(jīng)驗(yàn)中進(jìn)行概括,并且它的成功證明了,通過潛在的想象力進(jìn)行的學(xué)習(xí)行為可以勝過頂級方法。他們還說,Dreamer的價(jià)值模型即使在短期計(jì)劃中也表現(xiàn)良好,在20個任務(wù)中的16個(有4個打成平手)上表現(xiàn)優(yōu)于其他模型。

    研究人員寫道:“未來,關(guān)于表征學(xué)習(xí)的研究可能會將潛在的想象力擴(kuò)展到視覺復(fù)雜性更高的環(huán)境中,”研究人員計(jì)劃在本周溫哥華的NeurIPS 2019上展示他們的工作。Dreamer項(xiàng)目的代碼可在GitHub上公開獲得。雷鋒網(wǎng)

    雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    分享:
    相關(guān)文章

    新智駕主編

    專注蔚小理等造車新勢力的原創(chuàng)報(bào)道 |微信:Gru1993
    當(dāng)月熱門文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 人人妻人人澡人人爽人人精品97| 亚洲欧美一区二区成人片| a级黑人大硬长爽猛出猛进| 天天久久综合| 欧洲免费视频| 亚洲尤码不卡av麻豆| 超碰人人草| 亚洲欧美丰满精品人妻| 欧洲S码亚洲M码精品一区| 99热精国产这里只有精品| 中文字幕在线v| 色老头一区二区三区| 国产精品资源一区二区| 亚洲AV成人无码久久精品| av中文有码| 91av天堂| 国产精品青草久久福利不卡| 精品亚洲无人区一区二区| 麻豆国产成人AV在线播放| 高清免费毛片| 人妻熟妇乱又伦精品无码专区| 西西人体www大胆高清| 亚洲人成电影网站色mp4| 99久无码中文字幕一本久道| 特黄特色高清不卡免费视频| 丁香婷婷综合激情五月色| 熟女人妻aⅴ一区二区三区电影| 精品免费tv久久久久久久| 精品无码久久久久国产| 熟女成人影片| 精品人妻中文字幕色站| 国产国产午夜福利视频| 亚洲色欲色欲天天天www| 色欲国产精品一区成人精品| 少妇熟女久久综合网色欲| 精品国产69亚洲一区二区三区| 在线成人国产天堂精品av| 日本大色情www成人亚洲| 亚洲三级网| 国产午夜人做人免费视频| 久久天天躁狠狠躁夜夜婷 |