機器人也學會“先想后做”了：Imagine2Act突破高精度操作難題 | ICRA 2026

本文作者：陳淑瑜

2026-04-22 18:32

導語：北京大學董豪團隊提出的Imagine2Act框架，讓機器人先“想象”出任務完成時的理想狀態，再據此規劃動作，在多項精細操作任務上取得了顯著突破。

把盤子垂直插入碗架的窄槽、將花莖穩穩放入花瓶——這些對人類來說近乎本能的高精度操作，卻是機器人至今難以跨越的門檻。北京大學董豪團隊在ICRA 2026上提出的Imagine2Act框架，讓機器人先“想象”出任務完成時的理想狀態，再據此規劃動作，在多項精細操作任務上取得了顯著突破。

一、背景：高精度操作的兩大瓶頸

家庭服務機器人要真正幫人類干活，光會“抓取-放置”遠遠不夠。面對“把筆插進筆筒”“將碗放入碗架”這類關系性重排任務，機器人既要理解物體間的語義關系，更要滿足嚴格的幾何約束——偏差幾毫米就可能導致任務失敗。

當前主流方法存在兩大瓶頸：一是傳統3D模仿學習缺乏對物體間幾何關系的顯式推理，在高精度對齊任務上表現不穩；二是利用生成模型的方法往往直接將生成的物體變換當作動作執行，生成噪聲會在執行過程中不斷累積，導致誤差放大。

二、核心方法：想象引導執行，雙重對齊保精度

Imagine2Act的核心思路是讓機器人在動手前先“想象”任務完成時的場景，再將這個想象目標作為幾何先驗來引導動作學習。整個框架包含兩大模塊：

1. 語義幾何約束生成模塊：給定當前觀測和語言指令，系統先用圖像編輯模型生成一幅“任務已完成”的場景圖像，再通過分割和3D重建提取前景物體的點云，最后將前景點云與背景點云對齊拼接，得到一幅與真實場景幾何一致的“想象目標點云”。這一步相當于給機器人一張“正確答案”的草圖。

2. 物體-動作一致性學習模塊：從想象目標中計算出可移動物體從初始姿態到目標姿態所需的剛體變換，將其編碼為“變換Token”輸入動作生成網絡。同時設計了一個軟姿態一致性損失函數：僅在機器人手部運動與物體理想變換之間的偏差超過容忍閾值時才施加懲罰。這種雙重對齊機制既利用了物體運動的強信號，又容忍了生成模型帶來的小誤差。

機器人也學會“先想后做”了：Imagine2Act突破高精度操作難題 | ICRA 2026