• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
    此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
    人工智能學(xué)術(shù) 正文
    發(fā)私信給我在思考中
    發(fā)送

    0

    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制

    本文作者: 我在思考中 2021-09-06 11:58
    導(dǎo)語:本文是機(jī)器人領(lǐng)域頂級(jí)會(huì)議 IROS 2021入選論文《基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制》的解讀。該論文由北京大學(xué)前沿計(jì)算研究中心董豪課題組主導(dǎo)完成。
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    AI科技評(píng)論報(bào)道

    導(dǎo)讀:本文是機(jī)器人領(lǐng)域頂級(jí)會(huì)議 IROS 2021入選論文《基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制(DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos)》的解讀。該論文由北京大學(xué)前沿計(jì)算研究中心董豪課題組主導(dǎo)完成。


    項(xiàng)目主頁(yè):https://hyperplane-lab.github.io/dmotion/

    論文地址:https://arxiv.org/abs/2103.04301


    1

    研究背景

    在機(jī)器人控制、基于模型的強(qiáng)化學(xué)習(xí)領(lǐng)域,學(xué)習(xí)環(huán)境的模型是重要的問題。現(xiàn)有方法學(xué)習(xí)環(huán)境模型通常需要大量從環(huán)境中采集的帶標(biāo)簽的數(shù)據(jù),如智能體動(dòng)作、物體位置、運(yùn)動(dòng)的真實(shí)標(biāo)注,在許多現(xiàn)實(shí)場(chǎng)景的應(yīng)用中有局限性。
    而認(rèn)知科學(xué)的研究認(rèn)為,人類嬰兒能夠僅通過視覺觀察,建立物理世界的模型、進(jìn)行預(yù)測(cè)。無監(jiān)督地建立物理模型能夠幫助人類與環(huán)境交互、操控工具來完成各種任務(wù)。如圖1的例子所示:玩家 B 通過觀察玩家 A 操作,學(xué)習(xí)如何玩一個(gè)游戲。為學(xué)會(huì)玩游戲,玩家 B 需要建立游戲的模型,知道鍵盤上的操作(動(dòng)作標(biāo)注)與畫面中主角動(dòng)作的對(duì)應(yīng)關(guān)系、采取某個(gè)動(dòng)作會(huì)如何影響游戲的狀態(tài)。現(xiàn)實(shí)中,玩家 B 大部分時(shí)間都會(huì)只關(guān)注游戲畫面,而不去觀察玩家 A 操作鍵盤的每一個(gè)動(dòng)作。對(duì)游戲模型的理解,例如哪個(gè)是主角、主角和游戲環(huán)境是怎么互動(dòng)的,大多是通過觀看游戲畫面完成的;觀察鍵盤的操作僅僅是為了知道如何去控制主角的每個(gè)動(dòng)作。
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    圖1. 學(xué)習(xí)玩游戲的例子
    受此啟發(fā),我們研究如何利用缺少動(dòng)作標(biāo)注的視頻數(shù)據(jù)學(xué)會(huì)環(huán)境模型,來實(shí)現(xiàn)基于模型的機(jī)器人運(yùn)動(dòng)控制。如下圖所示,我們提出的方法(DMotion)首先從無監(jiān)督的視頻中解耦智能體的運(yùn)動(dòng)、學(xué)習(xí)物體之間的交互規(guī)律;最后通過少量的帶有動(dòng)作標(biāo)注的數(shù)據(jù),DMotion 建立動(dòng)作標(biāo)注到智能體運(yùn)動(dòng)的映射,學(xué)會(huì)環(huán)境模型。
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    圖2. DMotion學(xué)習(xí)“機(jī)器人推物體”環(huán)境的過程

    2

    方法簡(jiǎn)介
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    圖3. DMotion的訓(xùn)練框架,由Object Extractor和Interaction Learner組合,進(jìn)行端到端的學(xué)習(xí)
    問題定義:環(huán)境是馬爾可夫決策過程  ,假設(shè)只有一個(gè)智能體,動(dòng)作  控制智能體的位移,觀測(cè)空間是 RGB 圖像  。提供環(huán)境中采集的視頻數(shù)據(jù)  和少量帶動(dòng)做標(biāo)注的數(shù)據(jù)  作為訓(xùn)練數(shù)據(jù),任務(wù)的目標(biāo)是得到環(huán)境的模型  。
    物體解耦模塊(Object Extractor):圖像編碼器(Image Encoder)將輸入圖像  分解為一組特征圖  ,來表示不同物體的空間位置信息。運(yùn)動(dòng)編碼器(Motion Encoder)輸入連續(xù)幾幀圖像  ,輸出一組空間變換矩陣  ,來表示每個(gè)物體從時(shí)刻  到  發(fā)生的位置變換。  是2*3矩陣,由2*2旋轉(zhuǎn)矩陣和  方向的平移組成。空間變換器(Spatial Transformer)對(duì)特征圖進(jìn)行仿射變換  ,以得到  時(shí)刻的特征圖,再通過解碼器(Image Decoder)對(duì)圖像  進(jìn)行重構(gòu)。
    交互學(xué)習(xí)模塊(Interaction Learner):此模塊輸入歷史觀測(cè)  和第一張變換后的特征圖  ,輸出對(duì)  的預(yù)測(cè)。為準(zhǔn)確預(yù)測(cè)  時(shí)刻所有物體的位置,輸入  中必須含有智能體的動(dòng)作信息  。而僅當(dāng)  是智能體的特征圖時(shí),此模塊的輸入才含有充分的動(dòng)作信息。
    Object Extractor 和 Interaction Learner 在視頻數(shù)據(jù)集上端到端地訓(xùn)練,優(yōu)化目標(biāo)是:
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    直觀地,最小化前一項(xiàng)能夠激勵(lì)圖像編碼器解耦不同的物體、運(yùn)動(dòng)編碼器分解不同物體的位移,最小化后一項(xiàng)能夠激勵(lì)第一張?zhí)卣鲌D表示智能體的空間位置信息、交互學(xué)習(xí)模塊學(xué)習(xí)用  代替  的環(huán)境模型。
    動(dòng)作映射(Action-Transformation Mapping):為將交互學(xué)習(xí)模塊轉(zhuǎn)化為輸入真實(shí)動(dòng)作  的環(huán)境模型,我們利用少量的帶動(dòng)作標(biāo)注的數(shù)據(jù)學(xué)習(xí)映射  。環(huán)境模型做預(yù)測(cè)的流程如下:輸入歷史觀測(cè)  和智能體動(dòng)作  ,通過動(dòng)作映射將  轉(zhuǎn)換為矩陣  ,通過圖像編碼器提取  ,用空間變換器得到  ,最后通過交互學(xué)習(xí)模塊輸出下一時(shí)刻的觀測(cè)  。
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    圖4. DMotion應(yīng)用于機(jī)器人運(yùn)動(dòng)控制的框架
    機(jī)器人運(yùn)動(dòng)控制:DMotion 應(yīng)用于機(jī)器人運(yùn)動(dòng)控制的框架如圖4所示。給定一個(gè)目標(biāo)圖像,規(guī)劃算法利用學(xué)習(xí)的環(huán)境模型(Forward Model),搜索出最優(yōu)的決策動(dòng)作  ,從而控制環(huán)境中的機(jī)械臂推動(dòng)物體,達(dá)到目標(biāo)圖像的物體擺放位置。

    3

    實(shí)驗(yàn)結(jié)果
    視頻預(yù)測(cè):我們以圖像均方誤差(MSE)和物體位置的平均誤差(Pos err.)為指標(biāo),在 Grid World、Robot Pushing 環(huán)境中測(cè)試視頻預(yù)測(cè)的準(zhǔn)確性。表1顯示了我們方法的表現(xiàn)比所有使用10%標(biāo)注數(shù)據(jù)的有監(jiān)督方法更好。在多數(shù)指標(biāo)上,我們方法的準(zhǔn)確性超過了使用全部標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法。
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    表1. 視頻預(yù)測(cè)的定量結(jié)果,數(shù)字越小表示越準(zhǔn)確
    機(jī)器人運(yùn)動(dòng)控制:我們?cè)?Robot Pushing 環(huán)境中測(cè)試基于模型的機(jī)器人運(yùn)動(dòng)控制。圖6顯示,只有用我們的方法作為環(huán)境模型時(shí),能夠有效地完成任務(wù),使環(huán)境中物體位置與目標(biāo)位置的距離顯著下降。圖7對(duì)此進(jìn)行了解釋:可視化不同模型做多步預(yù)測(cè)的過程,只有我們的方法保證了機(jī)械臂始終是清晰的,其他方法在多步預(yù)測(cè)后機(jī)械臂的部分均出現(xiàn)模糊,導(dǎo)致規(guī)劃算法不能有效執(zhí)行。我們認(rèn)為,我們的方法對(duì)智能體的空間位置和運(yùn)動(dòng)進(jìn)行顯式地表示,有利于模型輸出智能體不模糊的圖像。
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    圖5. DMotion在機(jī)器人運(yùn)動(dòng)控制中的部分效果

    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制

    圖6. 機(jī)器人運(yùn)動(dòng)控制的定量結(jié)果,縱軸表示與目標(biāo)的差距,橫軸表示運(yùn)行步數(shù)

    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    圖7. 機(jī)器人運(yùn)動(dòng)控制的規(guī)劃過程中,不同環(huán)境模型的預(yù)測(cè)
    特征圖可視化:在對(duì)圖像編碼器輸出的第一張?zhí)卣鲌D  進(jìn)行可視化后,我們看到特征圖顯示了智能體的 mask,丟棄了其他物體的空間位置信息,與我們方法的假設(shè)相一致。
    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制
    圖8. DMotion首張?zhí)卣鲌D可視化的結(jié)果

    4

    總結(jié)
    本文提出了一種無監(jiān)督地用視頻數(shù)據(jù)學(xué)習(xí)環(huán)境模型的新方法,在視頻預(yù)測(cè)、機(jī)器人運(yùn)動(dòng)控制的任務(wù)中表現(xiàn)了相比監(jiān)督學(xué)習(xí)的優(yōu)越性。未來的研究可以將該方法推廣到連續(xù)動(dòng)作空間、多智能體、多關(guān)節(jié)智能體的場(chǎng)景,以適應(yīng)更復(fù)雜的任務(wù)需要。


    雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

    雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    IROS 2021 | 基于無監(jiān)督學(xué)習(xí)環(huán)境模型的機(jī)器人運(yùn)動(dòng)控制

    分享:
    相關(guān)文章

    運(yùn)營(yíng)

    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說
    主站蜘蛛池模板: 99国产欧美久久久精品蜜芽| 国产精品久久久久久久久免费无码| 色综合天天综合网国产成人网| 免费无码成人av在线播放不卡| 中文字幕日韩有码国产| 国产精品自拍中文字幕| 国产福利社区一区二区| 麻豆成人精品国产免费| 99国产视频在线观看| 538任你爽精品视频国产| 狼人视频国产在线视频www色| 九九热在线视频观看这里只有精品| 日韩av在线一区二区三区| 99视频在线| 97久久香蕉国产线看观看| 免费无码又爽又刺激网站直播| 中文人妻熟妇乱又伦精品| 九九热精品在线视频观看| 国产亚洲AV电影院之毛片| 人妻精品久久无码专区涩涩| 成人精品人妻一区| 亚洲国产色图在线视频| 国产精品日韩精品最新| 中国猛少妇色xxxxx| 偷拍一区二区三区在线视频| 在线a级毛片无码免费真人| 国产人成视频在线视频| 成人精品中文字幕| 国产成人av大片大片| 亚洲青青草视频在线播放| 成人亚欧欧美激情在线观看| 一本大道av人久久综合| 中文字幕国产精品av| 日韩精品一区二区三区久| 亚洲乱码一区二区三区视色| 亚洲日韩国产欧美久久久| 亚洲精品V欧洲精品V日韩精品| 欧美人成在线播放网站免费| 人妻夜夜爽天天爽三区麻豆av| 色色资源网| 亚洲精品成人综合色在线|