• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發(fā)私信給陳淑瑜
    發(fā)送

    0

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    導語:空間AI正在經歷從傳統(tǒng)地圖向任務驅動型全局記憶的演進。

    2026年6月4日,在ICRA 2026大會的Keynote 3“Robot Perception and Spatial AI”環(huán)節(jié)中,MIT副教授Luca Carlone發(fā)表了題為“Maps, Memory, and Tasks — Toward Spatial Al for the Next Generation of Robots”的主旨演講。他系統(tǒng)性地論證了一個核心觀點:下一代機器人更需要任務驅動的記憶系統(tǒng),而非一味追求更精確的地圖。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    Carlone指出,經典SLAM雖然成功,但流水線極其復雜。稠密條件模型(如Visual Geometry Grounded Transformer)用統(tǒng)一前饋框架革新了這一領域,卻受限于幀數(shù)處理能力。團隊通過子地圖切分擴展VGGT,卻發(fā)現(xiàn)射影歧義導致子地圖對齊產生偽影。為此,他們將傳統(tǒng)的位姿圖優(yōu)化升級為模型圖優(yōu)化,成功修正了尺度信息。

    但僅有地圖遠遠不夠。Carlone論證了從地圖到記憶的必要性:傳統(tǒng)地圖只能回答“自由空間在哪”,而記憶應讓機器人回答“我上周把鑰匙放哪了”、“當時天氣怎樣”這類涉及時空和經驗的復雜查詢。團隊構建了3D場景圖→DAAAM(開放詞匯場景圖)→情景記憶(基于驚喜度的視頻存儲)的遞進路徑,使機器人既能檢索事實,也能回放經歷。

    最后,Carlone提出“記憶應該是綠色的、輕量的”。Clio系統(tǒng)引入信息瓶頸工具構建任務驅動的場景圖表征,通過感知具體任務來過濾無關信息,實現(xiàn)更少、更準的存儲。其后續(xù)工作Found-IT進一步支持在運行時動態(tài)指定任務,擺脫了對預設任務列表的依賴。

     

    以下為Luca Carlone在ICRA 2026大會發(fā)表的演講精編稿,AI科技評論基于原英文演講內容進行不改原意的翻譯編輯:

    演講正文:從經典SLAM到語義建圖

    今天我演講的主題是“地圖、記憶與任務——以及空間AI的未來”。內容主要聚焦于我們實驗室最近的工作,包括幾周前剛發(fā)布的研究。深耕這個領域大約20年,我切身感受到現(xiàn)在是最令人興奮的時刻。硬件的飛速進步以及基礎模型的涌現(xiàn),讓我們能夠理解和評估以前無法觸及的課題。

    當前,從工業(yè)界到學術界,各類新型機器人層出不窮。人形機器人有望在復雜的長期任務中與人類無縫協(xié)作。但核心問題在于:我們如何讓機器人在真實規(guī)模的環(huán)境中執(zhí)行這類長期任務?

    我認為,要構建這個未來,下一代機器人需要引入任務驅動的記憶系統(tǒng),而這種系統(tǒng)的核心在于條件化的信息處理。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    首先來看3D建圖,即從經典建圖模型到語義建圖模型的演進。隨后我將論證為什么僅有地圖是不夠的,我們必須開始構建機器人的記憶能力。最后,我將探討如何將記憶設計為支持機器人執(zhí)行具體任務的工具。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    經典SLAM取得了巨大的成功,但其整個流水線極其復雜。過去三年中,稠密條件模型徹底革新了這一領域。它表明你可以利用同一個前饋框架來處理復雜的SLAM問題,將圖像直接映射為3D結構和相機位姿。更關鍵的是,這種新架構能夠處理來自多個相機的實時數(shù)據流,這在傳統(tǒng)SLAM中是難以企及的。

    然而,像VGGT這類稠密基礎模型同樣存在局限。例如,VGGT在內存耗盡前大約只能處理60幀;即使是最新的VGGT-Ω,處理500幀也需要大約一分鐘。但在實際的SLAM場景中,包含上萬幀、覆蓋長期運行軌跡的情況屢見不鮮。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    射影歧義與模型圖優(yōu)化

    為了擴展這些稠密條件模型,我們的基本思路是將軌跡切分為多個子地圖,用VGGT逐個處理后,再利用傳統(tǒng)位姿圖優(yōu)化進行對齊。

    但測試結果卻出乎意料,對齊同一區(qū)域的兩個子地圖時,場景中的衣柜竟然被重復放置在了床的兩側。這些偽影源于計算機視覺中經典的“射影歧義”。

    本質上,我們是在利用多個透視相機重建場景,且唯一已知的是相機內參。當固定相機內參時,3D重建的尺度是不確定的。如果相機完全未標定,相似結構的場景就極易被混淆。在一個未標定相機的會話中,你很難區(qū)分一個完美的立方體結構與一個變形的結構,因為這種變形極易被誤判為相機標定參數(shù)的變化。這就解釋了為什么SLAM中會產生此類偽影。

    基于這一洞察,我們發(fā)現(xiàn)不同子地圖具有不同的尺度信息。對此,我們的貢獻在于證明了通過對子地圖施加適當?shù)南嗨谱儞Q,可以有效修正尺度信息。我們將傳統(tǒng)的位姿圖優(yōu)化升級為模型圖優(yōu)化,在模型度量空間中進行同步優(yōu)化,從而解決了部分子地圖受尺度歧義影響的問題。

    從實際效果看,在相同的場景中,衣柜實現(xiàn)了更緊密的匹配與對齊,尺度信息得到了修正。目前該方法已在室內外各種環(huán)境中得到驗證,下個月的ICRA上我們還將展示一篇新論文,未來該方法將進一步擴展到更大規(guī)模的場景中。

    稠密條件模型的應用并不局限于SLAM。我們還嘗試將VGGT作為視聽覺語言模型(VLA)的工具:由VGGT將圖像映射為3D結構和視頻token,再將這些token注入VLA中,從而賦予模型更出色的3D場景理解能力。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    在Unitree G1機器人的測試中,我們對比了標準VLA(如Octo 1.5)與經VGGT增強后的VLA的操作性能。結果表明,VGGT增強版本在操作任務中的成功率顯著提升。

    從地圖到記憶:3D場景圖與DAAAM

    接下來討論超越建圖的必要性,即如何提煉環(huán)境中的核心語義要素。

    傳統(tǒng)地圖的本質是記錄環(huán)境的幾何結構,機器人只能回答“自由空間在哪里”、“障礙物在哪里”這類基礎問題。2015年左右,行業(yè)開始向度量語義地圖轉變,將語義標簽附加到標準幾何地圖上。這讓機器人能夠處理稍微復雜的查詢,比如尋找椅子、桌子或詢問桌子的高度。但這些依然停留在基于基礎語義的簡單檢索層面。

    我認為,當下的機器人必須實現(xiàn)從地圖到記憶的躍升。記憶是指編碼、存儲和提取環(huán)境更泛化信息的能力,同時記錄機器人自身的行為體驗。

    擁有記憶后,機器人就能理解更符合人類習慣的自然語言提問,比如:“我上周把鑰匙放哪了?”、“Bob的T恤是什么顏色?”或者“當時天氣怎樣?”機器人的內部表征必須足夠豐富,才能支撐起這類跨越時空與經驗的復雜查詢。

    過去幾年,我們一直在倡導使用3D場景圖來存儲環(huán)境中物體、智能體、地點等信息,這可以被視為一種初級的、局部的記憶形式。

    3D場景圖是一種層次化表征,它遵循環(huán)境的多級結構,從底層的幾何、物體、智能體、場所,一直延伸到房間和建筑層級。

    我們團隊不僅提出了新的表征方式,還開發(fā)了首個能夠直接從傳感器數(shù)據增量式構建場景圖的系統(tǒng)——Hydra。過去三到五年中,我們證實了該系統(tǒng)在室內到公里級室外環(huán)境中的建圖能力。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    盡管這些工具已經能夠捕捉基礎語義、幾何信息以及物體間的關系,但實際的機器人操作往往需要更細膩的知識輸入。例如,機器人不僅需要知道“這里有一輛自行車”,更需要記住“這里有一輛藍色自行車”或“一輛輪胎沒氣的自行車”。

    為此,我們開發(fā)了DAAAM。作為首個實時開放詞匯3D場景圖系統(tǒng),它能夠為物體生成極其豐富的描述。我們借助基礎視覺-語言模型(VLM)來標注物體,同時為了確保實時性,引入了幀采集策略來挑選最佳視角,緩解了標注速度慢的瓶頸。隨后,這些描述會從物體層級向上傳播,為區(qū)域乃至整個場景圖補充上下文。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    生成的場景圖支持自然語言查詢。我們設計了一種基于智能體的聊天交互方式,允許用戶像使用ChatGPT一樣檢索環(huán)境記憶。例如,輸入“你看到放在德州儀器入口旁邊的護照了嗎?”,系統(tǒng)會迅速定位關聯(lián)位置,推斷出護照的具體位置與時間,并回答“15分鐘前在那里”。

    情景記憶:基于驚喜度的視頻存儲

    在后續(xù)迭代中我們發(fā)現(xiàn),現(xiàn)有工作大多基于一種高度“有損”的表征。如果場景圖缺少推理所需的信息,機器人就會陷入困境。例如,它可能無法回答關于某個動態(tài)動作的提問,或者無法分辨什么是“十字路口”,因為這些動態(tài)信息在幾何或靜態(tài)語義建圖中被過濾了。

    這一局限性的解法同樣存在于神經科學中。人類的記憶兼具語義記憶與情景記憶。語義記憶負責檢索事實與關系(3D場景圖即扮演此類角色,盡管目前還相對局限);而情景記憶則是對事件更生動的片段式記錄,就像一段描繪特定遭遇的短視頻。正如人類遭遇事故時能極其生動地回憶起畫面細節(jié)一樣,情景記憶關注的就是這類關鍵事件。

    受此啟發(fā),我們開發(fā)了一個基于驚喜度的機器人情景記憶框架。系統(tǒng)會實時計算一個度量指標,用區(qū)域的“驚喜度”來衡量新輸入環(huán)境帶來的沖擊。一旦遭遇高驚喜度事件,系統(tǒng)就會自動攔截并存儲一段短視頻。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    這里核心的設計在于驚喜度指標的選取。我們引入了世界模型工具V-JEPA2,用它來捕捉場景的相關動態(tài)。因為它能捕捉場景的相關動態(tài),它本質上是一個世界模型。我們將這個框架集成到了3D場景圖系統(tǒng)中。通過這個方式,場景圖捕捉信息的能力得到了質的提升。通過引入短視頻存儲,機器人得以應對更高級的條件查詢。

    在測試視頻中,面對用戶提問“頭盔上是什么顏色?”,由于頭盔顏色在移動過程中發(fā)生了變化,系統(tǒng)能夠調取記憶中的視頻片段進行比對推理,準確給出了結合時間軸的正確答案。

    任務驅動的記憶:Clio與Found-IT

    最后,我想探討為什么記憶表征必須由任務來驅動。

    上述所有探索似乎都在引導我們去存儲更多、更豐富的信息(如長文本描述、視頻片段等)。然而,面對海量數(shù)據,核心問題隨之而來:到底什么才是必須記住的?

    我們主張,機器人的記憶應該是綠色且輕量的,并非所有信息都具有同等價值。如果機器人只是在廚房里導航到儲藏室,它可能只需要記住空間幾何;但如果任務是做飯,它就必須精確記住旋鈕和灶臺的位置。

    為了應對這一根本挑戰(zhàn),我們推出了首個構建任務驅動型3D場景圖的方法,稱之為Clio。不同于傳統(tǒng)建圖,Clio在輸入傳感器數(shù)據的同時,還會接收一份用自然語言指定的任務列表。系統(tǒng)利用Segment Anything等模型鎖定目標物體,并借助信息論中的“信息瓶頸”工具進行聚類與表征設計,確保每一個聚類既具備足夠的信息量,又與當前的具體任務高度對齊。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    該系統(tǒng)在移動操作任務中表現(xiàn)優(yōu)異。數(shù)據顯示,通過感知任務需求,系統(tǒng)能更高效地過濾無關干擾。如表格所示,Clio存儲的物體數(shù)量遠少于其他方法,但由于注意力集中在核心要素上,其任務成功率和召回精度反而實現(xiàn)了顯著提升。這一結論在隨后的拾取與放置任務中也得到了驗證。

    上周我們剛發(fā)布了一項名為Found-IT的后續(xù)工作。簡單來說,它是DAAAM的升級版。我們改用基礎模型來直接構建場景圖,使其能夠直接在標準的機器人操作視頻上運行。

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    更重要的是,它不再需要預先指定任務列表,而是支持在運行時動態(tài)調整任務。你可以把它想象成一種自適應建圖機制,隨著機器人的運行,在正確的時間以正確的方式按需繪制地圖。

    總結而言,空間AI正在經歷從傳統(tǒng)地圖向任務驅動型全局記憶的演進。當然,諸如長短期記憶的銜接、遺忘機制以及神經科學中的其他記憶形態(tài),還有諸多課題值得深入。除了空間理解,我們實驗室目前在自動駕駛感知、人體與物體條件預測,以及視覺語言模型(VLM)的不確定性量化方面也取得了不錯的進展。最后,如果大家想了解該研究領域的全景,推薦閱讀我們近期與多位頂尖學者合作編寫的《SLAM手冊》,其中涵蓋了認證感知、空間理解等諸多核心主題。

     

    Q&A 問答環(huán)節(jié)

    Q: 我想請教一個關于語義不確定性的問題。你如何構建能夠對語義不確定性進行魯棒推理的系統(tǒng)?而且同一種事物可以用語言以許多不同方式描述,機器人是否會被不一致的語言反饋所迷惑?

    Luca Carlone: 這確實是大家都非常關注的核心痛點。在不確定性量化方面,我們的研究表明,系統(tǒng)必須同時捕獲兩個不確定性來源:一個是認知不確定性,另一個是源于模型自身內在局限的系統(tǒng)性概念不確定性。雖然我們在數(shù)據集上證實了這種量化方法的可行性,但你提到的挑戰(zhàn)其實更為深遠。

    很多人可能關注到了近期關于Mirage(海市蜃樓幻覺)現(xiàn)象的研究,這是一項針對50個VLM基準測試展開的非常出色的工作。他們發(fā)現(xiàn),即使不提供任何圖像,只向模型提問,VLM依然能夠煞有介事地給出“答案”。這表明我們對這些基礎模型的底層機理依然知之甚少。因此,在安全至上的機器人應用中,語義不確定性量化絕對是一個至關重要的課題。

    Q: 我對情景記憶以及CLIP嵌入的應用很感興趣。存儲視頻是一個非常直觀且有趣的方案,但它的成本不會太高嗎?為什么我們必須存儲實際的視頻,而不是某種更扁平化、更低維的表征?

    Luca Carlone: 非常深刻的問題。對此我可以從兩方面來解答。

    首先,沿著機器人的行進軌跡存儲圖像或視頻并不是一個新概念。在實際應用中,為了實現(xiàn)視覺定位等功能,機器人本來就需要保留大量的沿途軌跡信息。我們的框架并不是額外增加了存儲負擔,而是提供了一種更聰明、更有選擇性的機制,來決定到底該保留哪些幀。

    其次,在我提到的“短視頻”機制中,系統(tǒng)實際上每次只精簡存儲大約5個關鍵幀,因此整體存儲量與常規(guī)方法相比并沒有顯著增加。在我們的實驗框架下,情景記憶在2到3分鐘的運行周期內通常只會觸發(fā)2到3次。所以從存儲開銷來看,它并沒有想象中那么夸張。

    當然,在面對極長序列的實驗時,確實需要非常小心。我們的終極目標并不是去存儲完整的“夢境”,而是希望提取出更具壓縮性的表征來“分析夢境”,從而實現(xiàn)更高的效率。雷峰網(公眾號:雷峰網)

    雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

    MIT Luca Carlone副教授:地圖不夠用,機器人得「記事」|ICRA 2026

    分享:
    相關文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 亚洲尤物视频在线观看| 四虎成人在线观看免费| 在线播放成人网站| 国产a自拍| 午夜丁香婷婷| 国产精品日韩中文字幕熟女| 99视频在线| 日本中文字幕123| 韩国无码AV片午夜福利| 国产精品白浆在线观看免费| 精品香蕉一区二区三区| 亚洲精品人成在线观看| 一卡2卡三卡4卡免费网站| 日韩在线一区二区三区| 狠狠肏天天艹| 日韩中文字幕av有码| 日本精品不卡一二三区| 久久本道综合久久伊人| 亚洲国产精品久久久久婷婷图片 | 69久热| 高清欧美日韩第一摸| 日韩高清国产中文字幕| 开心五月婷婷综合网站| 精品偷拍被偷拍在线观看| 69视频在线播放| 亚洲欧美成人精品香蕉网| 欧美z0zo人禽交另类视频| 四虎永久免费精品国产| 精品国产一区二区三区2021 | 久久国产成人精品国产成人亚洲 | 欧美精品福利| 国产精品自拍卡一卡二| 亚洲高清美女一区二区三区| 亚洲成熟女人毛毛耸耸多| 午夜性无码专区| 国产亚洲视频免费播放| 人妖毛片| 69国产精品成人aaaaa片| 亚洲成人有码免费在线| 最新精品露脸国产在线| 久久秘?精品成人小说|