0
| 本文作者: 陳淑瑜 | 2026-05-25 16:47 | 專題:ICRA 國際機器人與自動化會議 |
來源:公眾號“北京大學前沿計算研究中心”
解讀鏈接:https://mp.weixin.qq.com/s/tqnWuw9kG4a4WGPXe2oxlQ
01
研究背景
當前具身智能正朝著通用人工智能的方向快速發展,具身智能提高的關鍵一步就是構建出能夠根據人類指令在環境中移動的導航智能體。近年來,視覺語言導航(VLN)等任務得到了廣泛研究,但現有的評估任務主要關注多模態語言和視覺語義的理解,沒有系統地評估導航智能體的空間感知和推理能力。
為了全面暴露當前已有的導航模型的空間智能能力,并提供一套科學有效的評估基準,我們制作了 NavSpace,這是具身智能領域第一個基于空間智能的評估基準。基于 NavSpace,我們進行了提高空間智能能力的探索,并且提出 SNav 模型作為 NavSpace 的基線。
論?地址:https://arxiv.org/abs/2510.08173
02
主要貢獻
本文實現三大核心突破:
提出首個空間智能導航基準 NavSpace:
基于問卷調查,NavSpace 包含 1228 個高質量的軌跡-指令對,覆蓋垂直感知(Vertical Perception)、精確移動(Precise Movement)、視角轉換(Viewpoint Shifting)、空間關系(Spatial Relationship)、環境狀態(Environment State)和空間結構(Space Structure)等六種空間智能能力,為評估導航智能體的空間智能提供了全面的基準,填補了具身導航在空間智能理解上缺少基準的短板。
全面評估 22 種導航智能體:
在 NavSpace 基準上,對包括輕量級導航模型、導航大模型、開源多模態大模型和閉源大語言模型在內的 22 種導航智能體進行了綜合評估,體現空間智能基準對導航的重要性、多模態大模型在具身導航任務中的局限性、導航大模型相對于輕量級模型的優勢以及提升導航智能體空間智能的有希望的方向等關鍵見解。
提出 SNav 模型:
SNav 是一個空間智能導航大模型,它在 NavSpace 基準和真實機器人測試中的所有類別都超越了現有模型,為未來的研究工作建立了一個強大的基線。
03
核心研究
NavSpace 基準測試構建
我們構建的 NavSpace 基準評測的定義遵循經典的指令導航任務 VLNCE 的設定,即給定 NavSpace 中的語言指令,給定導航智能體當前的第一視角觀測,導航智能體需要在時間步 t 內預測下一個導航動作 a。由于設定與 VLNCE 相同,導航智能體一次可以預測的動作包括前進(forward)0.25米,左轉(turn left)30度,右轉(turn right)30度,停(stop)。如果智能體選擇停止,其若與目標的距離低于預定義的閾值則認定為導航成功。

上圖即是構建 NavSpace 基準測試的全部過程,整個過程一共分為四步。
第一步是問卷調查:受訪者首先需要仔細閱讀空間智能的詳細定義,并確認自身已完全理解相關定義,隨后受訪者將看到 17 種可能需要空間智能的候選指令類型,受訪者需要在 17 種候選指令類型中選擇最多 6 種最符合空間智能定義的而且最符合具身智能需求的類別。最終我們一共收到 512 份問卷,通過完成時間等方式篩選出可靠的問卷得出 6 個最常被選中的類別:垂直感知、精確移動、視角轉換、空間關系、環境狀態和空間結構。
第二步是軌跡收集:我們基于 Habitat 3.0 模擬器和 HM3D 場景構建了數據收集平臺,包括前端標注的網頁和后端服務器,后端與模擬器接口并且存儲相關數據。標注員登錄之后通過鍵盤操控智能體運動,在第一人稱的 RGB 觀測下進行導航,在標注者熟悉場景布局后(即至少移動 200 步之后)開始記錄軌跡。我們的前端平臺會指定應當標注的指令類型,標注者會在熟悉類別后尋找到合適的起點和終點位置,點擊“開始記錄軌跡”按鈕之后開始使用鍵盤操控智能體進行移動,到達終點之后點擊“停止記錄軌跡”按鈕結束記錄。
第三步是指令標注:為了提高標注效率,也為了確保語言的規范性,標注員可以使用 GPT-5 分析收集到的軌跡信息,GPT-5 會接收坐標信息,動作信息和第一人稱視角的圖片,但是由于 GPT-5 本身也不具備空間智能的能力,其生成的指令是模板狀態的,仍然需要標注員依靠自身觀測將其補全。
第四步是人工交叉驗證:為了確保每條指令可執行,每條指令必須由未見過該指令的標注者再次驗證。如果標注者能成功到達目標位置,則指令有效;否則,指令將被丟棄并重新標注。
經過這四步驟,我們構建出 NavSpace,其一共包含 6 類,共 1228 條高質量指令。
NavSpace指令類別

上圖為 NavSpace 中的指令類別。這六類指令是根據問卷調查結果確定的。所有導航軌跡與指令均通過我們設計的平臺,從 HM3D 場景數據集中人工采集而來。
第一類是垂直高度感知( Vertical Perception),在具身智能領域跨越樓層的指令較為稀少,而且其指令多數聚焦于上/下樓梯之類的表述。這樣的表述測評的是模型跟隨指令的能力,即看到樓梯就向上/下走,并無法測評模型對整個房間空間結構的感知。為此我們設計出這一類指令,其中包含帶有絕對樓層的描述、帶有相對樓層的描述、帶有特殊高度的描述。成功導航的標準被設定為到達最終目的地 3.0 米的范圍內。
第二類是精準移動(Precise Movement),其包含一系列精度極高的移動和旋轉動作,具身導航智能體需要通過環境推知自身的距離和方位,而不是簡單的遵循指令。我們希望通過這一類測評出導航智能體對角度和方位的細微理解能力。成功導航的標準被設定為到達最終目的地 1.0 米的范圍內。
第三類是視角轉換(Viewpoint Shifting),其包含帶有想象表述的指令。具身導航體需要想象自己是某個物體,以另一個物體為視覺中心進行移動的判定。這要求具身智能體擁有空間想象和空間轉換的能力。不同于先前研究視角轉換的一些工作,我們的視角轉換更關注長距離記憶和調取歷史的能力。例如:想象你是前方的那臺電視。朝你的左前方移動,沿著走廊走到盡頭,在白色門前停下。具身智能體不僅要成功判斷電視的左前方其實是自身的右前方,還需要將判斷轉化為可執行的動作。成功導航的標準被設定為到達最終目的地 2.0 米的范圍內。
第四類是空間關系(Spatial Relationship),其主要關注的是數詞量詞的空間關系和多個物體的空間關系。例如:沿著走廊走,在你左側的第三扇門左轉,在臥室的椅子旁邊停下。具身智能體需要能夠成功分辨左手邊第三扇門是哪一扇,并且將觀察判斷轉化為行動。同樣,這一類里也有“下樓去客廳,停在兩張棕色沙發的中間”這樣的指令,其測試的是具身智能體對多個室內物體方位關系的理解。成功導航的標準被設定為到達最終目的地 2.0 米的范圍內。
第五類是環境狀態(Environment State),具身智能體需要在導航過程中準確感知環境狀態,并且基于環境狀態做出動作的不同調整。例如:穿過走廊走到門廳,在儲物柜旁邊等待;如果你看到鑰匙,就停下,否則去前門查看。具身智能體需要到達指定地點之后根據當前的狀態判斷進一步的動作。成功導航的標準被設定為到達最終目的地 2.0 米的范圍內。
第六類是空間結構(Space Structure),這一類測評的能力是具身智能體是否理解空間布局,并且基于空間布局和指令產生正確的動作,比如環繞、往返和到達最遠/最近的地方。例如:“繞著八人餐桌走一圈”需要智能體感知到桌子作為一個物理實體,并且產生完整的一周繞行回到原位置。“走到走廊盡頭房間里的沙發那里,然后返回。”則需要智能體明確往返的含義,并且理解走廊的物理結構。“上樓,去你右側的那個房間,在最遠的沙發旁停下。”則需要智能體識別最遠和最近等空間特征的信息。成功導航的標準被設定為到達最終目的地 1.0 米的范圍內。
SNav 模型

為了給 NavSpace 提供一個可靠的基線,我們提出了 SNav 模型,模型結構如上圖所示。
SNav 模型使用 SigLIP 當作視頻編碼器,每8幀接收觀測的 RGB 圖作為一組,經過編碼器提取視覺編碼特征,再經過兩層 MLP 投影到語言模型的輸入空間中。指令同樣經過 tokenizer,與提取的視覺特征一起通過 Qwen2 的解碼器,輸出一連串的動作(前進、左轉、右轉、停止等)。整個模型采用 Llava-Video-7b 作為主干網絡。
使用導航動作預測(Navigation Action Prediction)、基于軌跡的指令生成(Trajectory-based Instruction Generation)和一般多模態數據回憶(General Multimodal Data Recall)三大任務進行共訓練,使得模型更好理解和生成導航指令。
為了進一步提高 SNav 的空間智能能力,我們設計出全套的數據增強管線,從現有數據出發生成需要空間推理和感知的導航數據,使用這些數據對模型進行微調。對于垂直高度感知,我們借用已有的 R2RCE 指令,對每條指令先進行垂直高度的篩選,之后利用 GPT-5 檢測是否有 stairs 語義出現,篩選出跨越樓層的指令之后利用點云劃分的方式確定具體樓層,進而產生帶有垂直高度信息的指令。對于精準移動,我們采用 shortestpathplanner 的方式在場景里隨機采點并且構建路徑,將動作記錄并且經由 GPT-5 paraphrase 形成一類數據。對于環境狀態,我們規劃路徑后將采樣的圖片提供給 GPT-5,分析出可觀測物體、不可觀測物體和描述信息,之后根據模板改寫為特定格式的指令。同樣對于空間關系,我們也有基于正則表達式的方式篩選路徑。
04
實驗測評
NavSpace 評測

我們系統評測了 22 個現有的導航智能體,包括輕量級模型、導航大模型、開源多模態大模型和閉源頂尖多模態大模型。我們評測了隨機猜測基線,包括隨機水平,即以 25% 的概率隨機選擇四個導航動作之一,也包括頻率水平,即以軌跡數據中觀察到的動作頻率進行導航動作選擇。
評測的結果是開源多模態大模型在 NavSpace 上的表現較差,其平均成功率低于 10%,與基于頻率的隨機猜測水平相當。專有大語言模型的性能優于開源模型,其中 GPT-5 表現最好,但所有專有大語言模型的平均成功率仍低于 20%。輕量級的導航模型在需要空間智能的導航指令上表現不佳,成功率極低。導航大模型表現強于輕量級模型,展現出一定的空間智能能力。而我們的 SNav 模型在 NavSpace 上的表現超過了所有現有的導航模型和多模態大語言模型,是最強的基線模型。消融實驗表明,所提出的指令生成流程對提升 SNav 的空間智能有顯著幫助。
真機測評
我們在真實世界環境中對 SNav 模型進行了測試,包括辦公室、校園和戶外環境,測試涵蓋了除去垂直高度感知之外的五類空間智能導航指令。

上圖為 SNav 真實世界部署的定性結果。評估的指令涵蓋了 NavSpace 中提出的五種類別。測試環境包括辦公室、校園建筑和戶外區域。
我們使用 AgiBot Lingxi D1 四足機器人,該機器人配備了單目 RGB 相機和運動控制 API。機器人接收到導航指令后,將 RGB 觀測傳輸到遠程服務器上的導航模型(搭載 NVIDIA A100 GPU),模型預測動作并通過 D1 的運動 API 執行。
SNav 在真實世界測試中的表現優于 NaVid 和 NaVILA,成功率為 32%,遠高于 NaVid 的 14% 和 NaVILA 的 6%,真機測試結果表面,SNav 在實際應用中有較好的空間智能和導航能力。
05
討論與未來展望
我們發現在已有的空間智能評測標準上(如 VSI-Bench 和 SpatialBench)表現較好的 MLLMs 幾乎無法完成 NavSpace 里的導航任務,這可能是因為現有的空間智能評測標準都是靜態評估,模型只需要預測一個固定的數字或者做出選擇題即可,而我們的 NavSpace 需要模型在場景中進行動態運動和推理,這對于具身任務是至關重要的。因此我們的評測標準更抓住了具身導航的核心需求。
為了進一步探尋 MLLMs 為何在 NavSpace 上表現不佳,我們通過詢問 GPT-5 的方式發現其有一些時候能夠正確回答關于具體距離、視角轉換和環境狀態的問題,但是當其預測動作的時候錯誤率陡然提高。為此我們認為當前 MLLMs 表現不佳的原因一方面是空間感知能力不佳,另一方面是由于模型視覺感知和動作的推理不一致性導致的錯誤,模型無法整體化理解視覺感知和動作。
我們的測評發現就算輕量級的導航模型能夠在 R2R 等特定導航任務中取得較高的分數,其無法有效泛化到 NavSpace 等需要空間智能的任務中,這說明輕量級的導航模型并不理解場景中的空間關系。
基于我們的數據增強管線和分析,我們認為導航大模型的導航能力主要依靠多模態能力,其指令跟隨能力并不出眾,因為其在精準移動和空間結構等對多模態視覺信息需求較弱的任務中表現顯著不佳。為此,我們認為未來的研究應該聚焦于同時提高模型對空間的感知,也提高模型將視覺信息轉化為正確動作的能力。