0
| 本文作者: 吳思夢 | 2026-05-29 11:23 | 專題:ICRA 國際機器人與自動化會議 |
原文鏈接:icra-research-robotics-simulation-to-real-world
原文作者:Katie Washabaugh
在國際機器人和自動化會議上,八篇新的英偉達研究論文展示了經過模擬訓練的機器人是如何進入現實世界的。
機器人技術正在進入一個新階段:從受控演示和腳本自動化轉向現實世界中可推廣、可靠的體現自主。
在國際機器人和自動化會議(ICRA)上,NVIDIA Research的28篇被接受的論文中有8篇展示了模擬到現實的傳輸如何成為這種轉變的基礎,幫助機器人在動態、不可預測的環境中感知、推理、計劃和行動。
這些論文共同涵蓋了機器人開發人員面臨的挑戰:并行協調多個手臂,構建跨機器人身體通用的政策,在雜亂中抓住新事物,執行精確的組裝,以及開發在移動前推理的視覺-語言-動作模型。
通道很清楚:sim-to-real正在成為機器人的基礎,這些機器人可以在實驗室外以更高的可靠性進行適應、概括和操作。
Coordinating Arms, Navigating Bodies, Grasping Objects
想象一下一個由機械臂運行的制藥實驗室:拾取試管、轉移液體、混合試劑——每個步驟都需要不同的時間,都需要仔細協調。
傳統的機器人調度軟件按順序處理這些步驟,一次一個手臂。
ScheduleStream透過在GPU上執行計算來改變這一點,讓多個手臂計劃移動並行操作。結果——在NVIDIA Jetson edge AI平臺等硬件上,跨多臂規劃場景加快了3倍的速度。框架的代碼可以在GitHub上找到。
一個學習在空間中導航的機器人——避開障礙物并找到目的地——通常學會在一個身體中做到這一點。將相同的導航軟件放入形狀不同的機器人中,它經常會散架,因為它的部件都以不同的方式移動。
COMPASS政策框架通過首先使用模仿學習構建基線導航功能,然后使用NVIDIA Isaac Lab中的剩余強化學習來為各種機器人實現構建專家來解決這個問題。至關重要的是,任何階段都不涉及現實世界的機器人數據:一切都在Isaac Lab模擬中進行訓練。
與模仿學習基線相比,COMPASS的平均成功率提高了4.5倍。它還無縫傳輸到現實世界環境,在自主移動機器人和人形的20次現實世界導航試驗中展示了約80%的成功。
COMPASS對代理友好,具有專門的技能——開發人員可以將管道與NVIDIA Omniverse NuRec連接起來,以便在部署前在新環境的數字孿生中對機器人進行后訓練和驗證。
大多數抓取系統識別對象,預測抓取,規劃路徑,然后執行。但最后幾厘米是小錯誤最重要的地方。
Grasp-MPC自適應地計算機器人抓取,在機器人靠近物體時不斷糾正其運動,而不是執行固定計劃——一個人通過感覺而不是提前計算每個關節角度來抓取東西的方式。
為了制定該政策,研究人員使用GraspGen數據集的注釋和來自cuRobo(用于機器人運動生成的CUDA加速庫)的運動規劃數據,在8000個物體上生成了200萬個物體的模擬軌跡。
在對成功和失敗軌跡進行培訓后,Grasp-MPC學會了在雜亂的桌面和架子上掌握新穎的物體——在真實機器人上取得了約75%的總體成功率,而基線為41%。
可變形聚類操作引入了一個框架,該框架應對了一個平行挑戰:使系統能夠同時抓取整個靈活、糾結的材料,而不僅僅是一個對象。
該框架的動機是一個現實世界的任務:清除生長在電力線上的大量樹枝,那里沒有干凈的物體可以抓住。系統使用整個手臂,而不僅僅是抓手:將其纏繞在分支集群上,然后將其掃到一邊,就像有人可能會收集一臂的電纜或將糾結的刷子推開的方式。
研究人員使用生物生長方程構建了一個樹生成器,以創建許多不同形狀和大小的合成樹——然后在NVIDIA Isaac開放模擬框架中訓練了數千棵樹的系統。
該政策部署到真正的分支零射擊。除了電力線之外,研究人員還看到了電纜管理、農業檢查以及機器人需要處理糾結而不是單個可抓取物品的任何地方的潛力。

在零射擊模擬到真實部署中清除樹枝。
Assembling With Precision
精確的組裝——將螺母穿入螺栓上,將齒輪插入齒輪軸,將釘子壓入孔中——僅通過模擬是出了名的難。
現實世界是復雜的。真正的表面并不完美光滑。傳感器的行為不按規定進行。模擬器忽略的微小差異可能會阻止機器人的腳步。
SPARR方法通過將工作一分為二來解決這一問題。在Isaac Lab中訓練的策略學習模擬中組裝任務的一般策略。然后,在實際硬件上,第二層學會糾正模擬器出錯的任何東西——使用機器人自己的相機,無需任何人類演示或指導。
與零射擊模擬到真實基線相比,SPARR的成功率提高了38%,周期時間縮短了約30%。
在培訓期間沒有看到的國家標準與技術研究所(NIST)組裝任務上,成功率提高了近75%——接近需要人工參與的方法的結果。
煉油廠框架在裝配中具有下一層難度:具有多個順序步驟的任務,其中第一步的完成程度決定了第二步是否可能。這就像組裝家具一樣——將面板放在錯誤的角度,下一個緊固件就進不去。
通過了解成功如何因初始條件而異,以及數百個模擬組裝場景中的培訓,煉油廠學習如何完成每個步驟,并將每個組件留在下一個設置的位置。與現實世界結果相當可比的基線相比,它實現了91%的模擬成功率和近11%的平均改進——其政策可以串聯在一起處理冗長的多部分序列。
Action Models That Keep Their Word
PEEK管道幫助機器人看到雜亂無章的東西。在典型的操作任務中,機器人的相機會捕捉到場景中的所有內容——但其中大部分是無關緊要的噪音。
PEEK項目頁面上展示的一項任務是“把香蕉交給英偉達創始人兼首席執行官黃仁”:一張黃的照片與邁克爾·喬丹的照片一起放在桌子上,這是一組不相關的物體和其他分散注意力的東西。
完成任務的人立即專注於香蕉和正確的照片;標準的機器人政策必須處理一切,並且經常感到困惑。PEEK通過讓視覺語言模型讀取任務指令并相應地聚焦機器人的視線來解決這個問題——顯示運動路徑,并突出顯示重要物體周圍,同時淡化其他一切。
然后,該政策根據注釋的觀點行事,而不是原始場景。對于純粹在模擬中訓練的政策,添加PEEK的準確性比現實世界提高了41倍。對于大型VLA模型和較小的政策,收益范圍為2-3.5倍。由于它在圖像級別工作,PEEK無需修改即可與任何基于相機的策略集成。
言出所力——與卡內基梅隆大學、猶他大學和悉尼大學的研究人員合作——解決了機器人處理更長、更復雜的任務時更重要的特定故障模式。
給機器人一個指令,比如“把所有東西都放在柜子里的這個桌子上”或“準備曼哈頓”,它必須將其分解成單獨的步驟,并按順序執行它們。
問題是,人工智能模型可以正確推理它需要做的事情——然后執行一些不同的東西。
這種稱為SEAL的方法在運行時修復了這一點,無需任何再訓練:機器人生成幾個候選動作序列,思考每個動作序列實際上會引導到哪里,并選擇與它所說的結果相匹配的結果。與之前的工作相比,SEAL提供了高達15%的精度提升,對改寫指令、更改對象、場景雜亂和移動相機角度具有穩健性。
除了論文之外,英偉達還通過機器人的大規模開放數據集擴展機器人研究基礎設施。NVIDIA物理人工智能數據集是世界上最大的物理開發開放數據集,下載量超過1500萬次,而NVIDIA Isaac GR00T X Embodiment Sim已成為下載量最大的機器人數據集之一。
雷峰網(公眾號:雷峰網)
本專題其他文章