0
| 本文作者: 吳思夢 | 2026-05-28 17:35 | 專題:ICRA 國際機器人與自動化會議 |
原文鏈接:http://www.labren.org/mm/news/?-icra-2026-???????-???????/

很高興能夠分享我們的最新成果——??????。這是一個基于幾何認知的統一框架,能夠實現語言引導的機器人抓取操作。
語言引導的抓取能力是實現直觀的人機交互的關鍵能力之一。機器人不僅應該能夠識別物體,還應該能夠理解諸如“拿起碗后面的藍色杯子”這樣的自然語言指令。雖然最近的一些多模態模型取得了令人滿意的效果,但大多數現有方法仍然依賴于多個階段的處理流程,這些流程將感知與抓取預測緊密地結合在一起。然而,這些方法往往忽略了幾何形態、語言信息以及視覺推理之間的緊密整合,因此在環境雜亂、遮擋嚴重或紋理低下的情況下,這些方法的性能會大打折扣。這促使我們努力彌合語義語言理解與精確幾何抓取執行之間的差距。

讓我們來看看這個挑戰吧:
一種新的統一框架,用于幾何感知且語言引導的抓取操作,包括以下功能:
統一的 RGB-D 多模態表示:
我們將 RGB 顏色、深度以及語言特征嵌入到一個共享的表示空間中,從而實現跨模態的語義一致性,進而實現精確的目標識別。
深度引導幾何模塊(DGGM):
我們并沒有將深度信息視為輔助輸入,而是將基于深度信息推導出的幾何先驗信息直接融入注意力機制中。這樣能夠在遮擋或視覺環境不明確的情況下,更好地實現物體的識別與區分。
Adaptive Dense Channel Integration (ADCI):
一種動態的多層融合策略,能夠結合全局語義線索與精細的幾何細節,從而實現對物體抓取的穩健預測。

? 在語言引導的抓取任務中,GeoLanG 在 OCID-VLG 基準測試上的表現顯著優于以往的各種多階段算法。
? 在雜亂且遮擋嚴重的場景中也能表現出極強的魯棒性。
? 已在真實的機器人硬件上成功進行測試驗證,證明從模擬環境到真實環境的轉換是可靠的。
關鍵點總結:
這項研究表明,將幾何推理與多模態語言理解緊密結合起來,可以顯著提高機器人抓取系統的可靠性。通過將具有深度感知的幾何先驗信息直接融入注意力機制中,我們能夠減少歧義,并提高抓取決策的一致性。
GeoLanG 提供了一種途徑,使得機器人系統能夠更加智能化。這些機器人不僅能判斷需要抓取什么物體,還能在復雜的現實環境中穩健地抓取物體。
我們正在探索將這種幾何感知的多模態推理技術擴展到:
Real-time interactive grasping
Multi-step manipulation tasks
Integration with motion planning and autonomous robotic control
雷峰網(公眾號:雷峰網)