0
| 本文作者: 吳思夢 | 2026-06-08 10:11 | 專題:ICRA 國際機器人與自動化會議 |

2026年6月3日,ICRA 2026維也納會議“操作、控制與具身設計”主題Keynote環節,斯坦福大學計算機科學系的副教授,同時也是斯坦福交互式感知實驗室(Interactive Perception Lab)的負責人Jeannette Bohg以一個反問開場——“我們還需要靈巧手嗎?”
這個問題之所以有力,恰恰因為它指向了當下機器人操作領域最真實的張力:二指夾爪(two-finger gripper)配合端到端大模型,已經能完成Rubik魔方、精細拼裝等令人嘆服的任務。那么,高自由度、高復雜度的靈巧手(dexterous hand)的價值究竟在哪里?
Jeannette Bohg給出了清晰的回答:靈巧手的價值不在于“像人類一樣”,而在于吞吐量(throughput)與可控子空間(controllable subspace)這兩個維度上不可替代的優勢。她舉了一個例子: 一名制表大師用小指穩定工具、用腕部旋轉螺絲,是經過兩年訓練后才涌現的高效策略——這種能力,夾爪永遠無法復現。
然而,靈巧手的困境同樣清晰:22個自由度、多接觸狀態的切換,讓遠程操控(teleop)數據采集極其困難且低效。對此,Bohg提出了她實驗室的核心方法論——不從人手學,從物體軌跡學。
她的研究路線分兩步走:
第一步:Sim-tool-real的統一操作策略(UniSim-Real)。 在仿真中對基元物體集合訓練單一RL策略,驅動策略的“目標信號”不是人手姿態,而是物體的目標位姿序列——這個目標序列來自人類視頻,但經由基礎模型提取出“物體在做什么”,與“人手如何移動”完全解耦。結果是一個零樣本(zero-shot)遷移泛化到大量工具與任務的單一策略。
第二步:Play-to-Effect的精細化微調。 上述“泛化探索策略(Play Policy)雖然掌握了原子級技能,但對精度要求極高的裝配任務(如公差極小的插孔)表現不足。團隊將該預訓練策略作為起點,通過精調(fine-tune)實現高精度插拔、家具組裝等任務——比從頭訓練更快、更魯棒,對外力干擾的抵抗力也更強。
Bohg最后坦誠地提出了尚未解決的核心問題:如何彌合“低維度RL物體表征”與“自我中心視頻中蘊含的豐富視覺-物理復雜性”之間的鴻溝? 這是她實驗室目前正在攻堅的開放問題,也是靈巧手走向真正通用的最后一塊拼圖。
以下是Jeannette Bohg在ICRA 2026大會上發表的演講精編稿,雷峰網(公眾號:雷峰網)·AI科技評論基于原英文演講內容進行了不改原意的翻譯編輯:
《Do We Still Need Dexterous Hands?》
主講人:Jeannette Bohg,斯坦福大學
一、反問開場:二指夾爪已經這么強了,靈巧手還有位置嗎?
今天我想提出一個問題:我們還需要靈巧手嗎?
我之所以問這個,是因為兩指夾爪(two-finger gripper)所能做到的事情確實令人印象深刻。我舉兩個例子:一個來自Generalist團隊,大家應該都見過,他們用兩只手兩個夾爪能做出相當驚艷的操作;另一個是我周一錄下來的視頻——一名研究人員展示的,一個人在解那個Gearboard的拼板,可以看到這個人操作得很吃力;而右邊,那個兩指夾爪機器人卻把這個任務完成得相當出色。把皮帶套到齒輪上,這個任務其實相當難。
然而,我確實認為靈巧手有它不可替代的位置。
二、為什么需要靈巧手:吞吐量與可控子空間
那么,我們究竟為什么要研究靈巧手?
首先,吞吐量(throughput)。我來展示一個視頻——我的一個學生找到的,一個人抓起工具然后用它擰緊螺絲,速度相當快。我們仔細看:首先是用靈巧手抓起桌上的工具,然后是“手內操作”(in-hand manipulation),旋轉工具對齊方向,再一次手內操作,確保工具和螺槽精確對齊。這整套動作,夾爪根本無法做到——而靈巧手能以極快的速度把它完成。
其次,可控子空間(controllable subspace)。這里我想引用LASA實驗室的一項研究,她非常好地與我分享了視頻。她的工作研究的是瑞士制表師如何在任務中變得精通。左邊是一個初學者——可以看到他需要用另一只手來輔助定位工具與螺絲的對齊;右邊是一位專家,速度完全不同。這位專家在定位螺絲時,用的是小指來穩定工具完成對齊,完全不需要第二只手。這是一種經過兩年訓練才涌現出來的能力和策略。
這是夾爪永遠做不到的。

三、核心挑戰:22個自由度,遙操作太難——不要從人手學
說了這么多優勢,我們也必須直面現實:控制一個22自由度、6個驅動軸的靈巧手,并處理多接觸狀態的切換,是極其復雜的事情。
目前有一條很流行的路線——從遙操作數據中學習。但遙操作靈巧手本身就是一個極難的問題,操控起來非常不直覺。你可以從某個團隊的視頻里看到,用遙操作訓練出來的策略行為,和我們剛才看到的那個人類操作截然不同——動作很慢,非常謹慎。這正是因為遙操作本身就極難操控。
所以,我們堅定地不走這條路。 相反,我們選擇sim-tool-real。
當然,sim-tool-real近年來因為大量計算資源的投入取得了很大進展。但有一點我必須指出:大多數現有工作,每個技能對應一個單獨的策略——旋轉用一個,穩定握持用一個,工具使用用一個。我們想做的是把這些獨立的技能策略統一成一個策略。
四、UniSim-Real:從物體軌跡學,而非從人手學
那么,我們是怎么做的?
關鍵洞察是:我們可以將操作與物體的目標位姿統一起來。 在屏幕右側,你會看到一個綠色的“幽靈物體”——那是這個策略需要追蹤的目標位姿,策略需要通過所有這些手內操作和抓取來讓物體匹配這個目標。

在訓練階段,我們在仿真里生成一組基元(primitive)物體,并訓練一個單一的RL策略,讓它能夠把每個物體操控到隨機的目標位姿。這個策略在仿真里只有一個,輸入是:手的本體感受狀態(通過傳感器獲取)、物體的包圍盒、物體當前位姿(用包圍盒上的40個關鍵點表示),以及一個目標位姿序列。
那目標位姿序列從哪里來? 我們確實錄制了人類視頻示范,然后使用基礎模型從視頻里提取物體的位姿序列。重點在于:我們模仿的不是人手,我們只關心物體在做什么。 提取出來的目標位姿由閉環手部跟蹤來追蹤執行。
有了這個洞察,我們得到了一個單一策略,可以零樣本完成大量操作任務——包括大量從未見過的工具和任務。與基線方法相比:固定抓取不work,因為完成任務必須改變物體的手內朝向;運動學重定向(kinematic retargeting)也通常不穩定。
如果你有興趣,可以掃我PPT上的二維碼,訪問我們的網頁,有一個交互式demo,你可以自己改變目標位姿、改變朝向,甚至讓物體掉落,探索這個策略的邊界。

五、Play-to-Effect:從"游玩"到"精確插拔"
現在我們有了這個能干很多事情的策略,能在靈巧手上通過RL學到各種有趣的行為。但我們也發現:它并不能很好地完成裝配任務(assembly)。
裝配任務需要精確度。我們的測試表明:如果兩個零件之間的間隙比較寬松,這個策略有時能成功,但成功率不夠高;間隙越緊,成功率越低。
于是我們問:能不能把這個已經內嵌了所有原子技能的“游玩策略(Play Policy)”作為預訓練起點,再微調它去做更精確的操作?
我們將“游玩策略”作為預訓練基礎,針對一系列精確插拔任務進行微調(fine-tune)。在推理時,我們使用基礎模型來追蹤待操作零件和固定件的位姿,以關鍵點序列和目標抓取朝向作為輸入。
測試結果包括:插銷任務、宜家基準測試(IKEA benchmark)的鉸鏈組裝(插入填充物、抓取橫梁并放置)、家具基準測試(將桌腿插入桌面的榫眼)。“Play-to-Effect”在所有這些任務上都有出色表現——比起游玩策略有明顯提升,訓練速度也很快(甚至比從頭用稠密獎勵訓練還快),同時對引入外力干擾的抵抗力也更強。
另一個讓我個人特別興奮的地方是:這是一個閉環策略,當物體從手里掉落,它會主動撿起來再試。這種恢復行為,正是閉環策略的本質優勢。

六、尚未解決的問題:低維RL與富信息視頻之間的鴻溝
好,讓我以幾點反思來結束這個演講。
我們用RL在這個擬人手(anthropomorphic hand)上學習到了這些非常有趣的行為。我很喜歡的一點是:我們根本不關心人手的歷史動作軌跡,我們只關心物體是否在沿著軌跡運動、是否完成了任務。
因為我們用了RL,實際上我們并不需要綁定在擬人手上。完全可以使用那些具有仿生主動表面的非擬人設計的手——這些手不需要像擬人手那樣做接觸狀態切換。而且,對于這樣的手,你永遠沒辦法通過模仿人手來驅動它。所以,同樣的方法論——先游玩再精確,再完成任務——對非擬人手同樣適用。
但RL也有它的局限性:
通過模仿學習,已經有人在用人類視頻做訓練,但他們是在模仿人手本身,而這條路正受制于運動學重定向的天花板。
今天上午我們還展示了另一項成果——《Masquerade》。我們不是直接模仿人類的動作,而是在人類視頻中用機器人手替換掉人類的手,從而讓數據完美包含任務需求,并以此訓練視覺編碼器。這種方法徹底彌合了域偏移(Domain Gap)帶來的差距,在分布外泛化(OOD Generalization)上表現特別優異。

最終,我們正在思考的開放問題是:如何彌合“在任何手上都能學到的全套行為”與“自我中心視頻中蘊藏的豐富視覺-物理復雜性”之間的鴻溝? 這是我和實驗室學生們接下來要一起攻克的課題。
感謝所有合作者,也特別感Sharpa贊助并提供了這些靈巧手。謝謝大家!
Q&A 問答環節
聽眾A(主持人): 您在談到彌合仿真到現實的差距時,尤其是針對仿真中難以處理的物體(比如柔性物體或有復雜交互的物體,如擠壓噴瓶),您怎么看待這個問題?
Jeannette Bohg: 讓我簡單介紹一下我們是怎么做這個sim-to-real遷移的。我們使用了域隨機化(domain randomization)——不僅隨機化物體本身(形狀、大小),也隨機化環境的物理屬性。更關鍵的是,我們還必須在仿真里模擬有噪聲的物體檢測和位姿估計,以及傳感器延遲——這些對于真正把仿真策略遷移到真實世界至關重要,包括對外力擾動的模擬。
對于鉸接物體,我完全可以想象用同樣的方法,只是提高物體表征的維度——比如用物體的關節狀態(如關節角度)來代表物體狀態。視覺社區能不能為我們提供魯棒的位姿估計,是關鍵的外部依賴。
對于布料、面團這類廚房場景里的柔性物體——坦率說,我暫時還不知道怎么做。一個猜想是:也許可以在剛體和鉸接物體上預訓練,然后結合已有的示范數據(比如折疊衣物的工作),進行微調。或者,如果有人能提供更快的柔性體仿真框架,我們仍然可以走RL這條路。
聽眾B: 您認為如何把這些策略功能化,整合進一個用于各類物體操作的基礎模型?我看到這里所有的策略都是相對專一的,下一步是否可以把它們作為模塊,嵌入到類似Action Expert這樣的更大型操控模型里?
Jeannette Bohg: 很好的問題。首先澄清一下:我們選擇工具不是因為我們要專門做工具操作——而是因為工具是靈巧手最難操作的對象之一,對技能要求最高。同樣的訓練框架,完全可以擴展到更多類型的物體,我們只是還沒來得及做。
關于“能不能把這個策略作為VLA模型的Action Head”——這個想法很有意思,我之前還沒想到過。一個可能的方向是:把策略蒸餾到以RGB或深度圖像為輸入,然后輸入到VLA的某個表征層,再微調。但這需要更多時間討論,目前還只是直覺。
(編者按:Jeannette Bohg領導的斯坦福大學機器人學實驗室目前正積極招募博士生及合作研究者。)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章