0

作者丨鄭佳美
編輯丨馬曉寧
2026 年 6 月 1 日,國際機器人與自動化會議(ICRA)在奧地利維也納召開。次日上午的自動駕駛與導航報告環節,雷峰網GAIR 2021大會嘉賓、上海交通大學教授王賀升發表了題為《Learning to Navigate: From Scene Understanding to Decision Makin》的演講。
3D 視覺研究正在從“重建形狀”走向“理解空間”。過去,一個模型只要能生成外觀合理的三維物體,就已經足夠令人關注。
但現在,真正重要的問題正在變得更復雜:模型能否判斷一個物體內部哪些部件可以運動,能否理解動態物體在時間中的幾何和外觀變化,能否在多視角重建中兼顧精度與效率,甚至能否讀懂復雜的 3D 幾何論文并寫出可復現的研究代碼。
這種轉變也體現在 CVPR 2026 相關研究所關注的問題上。研究者不再只滿足于讓 AI 生成一個靜態 3D 模型,而是希望它進一步理解物體的結構、運動方式、時空表示和計算過程。
一個抽屜不只是一個長方體,而是應該知道它可以沿軌道滑動;一個動態物體不只是連續的幾幀形狀,而是需要被統一表示和長期追蹤;一個 3D 基礎模型也不只是越大越好,還必須在實際場景中高效、穩定地運行。
更深層來看,3D AI正在從單點能力走向系統能力。它不僅要回答“物體長什么樣”,還要回答“它怎么動”、“如何被重建”、“如何高效運行”、“如何被研究者復現和擴展”。當這些能力逐漸連在一起,3D 模型才更接近真正可用的空間智能系統,也更接近機器人、仿真、數字孿生和生成式 3D 內容所需要的核心基礎。

01
《PARTICULATE: Feed-Forward 3D Object Articulation》關注的是 3D 物體自動關節化問題,相關研究來自牛津大學、劍橋大學和南洋理工大學。
論文主要研究如何從一個靜態 3D 網格中,自動推斷出物體的可動結構,包括物體由哪些可動部件組成、這些部件之間如何連接,以及它們分別沿著什么方向旋轉或滑動。
這項任務的意義在于,很多現實物體并不只是“有形狀”,還具有可運動的結構。比如柜門可以旋轉打開,抽屜可以沿軌道滑動,水龍頭、椅子、行李箱等物體也都有不同形式的可動部件。
對于機器人操作、物理仿真、游戲資產和數字孿生來說,僅有一個靜態 3D 模型是不夠的,還需要知道這個物體“哪里能動、怎么動、動多少”。
以往的方法往往依賴規則建模、部件檢索,或者針對單個物體進行優化,推理速度慢,也很難覆蓋真實世界中種類豐富的物體。

論文地址:https://arxiv.org/pdf/2512.11798
針對這一問題,論文提出了 PARTICULATE 框架,它可以在一次前向推理中,從輸入的 3D mesh 直接預測完整的關節結構,并在數秒內生成一個可用于物理引擎的可動 3D 模型。
方法上,論文設計了 Part Articulation Transformer,也就是 PAT。它會先從輸入 mesh 中采樣點云,并結合表面法向量和 PartField 提取的 3D 語義部件特征,然后通過 Transformer 結構和多個解碼頭,同時預測部件分割、運動學樹、關節類型、運動軸和運動范圍。也就是說,模型不僅要把物體切分成不同部件,還要判斷這些部件之間的父子關系,以及每個部件是旋轉、平移,還是固定不動。
論文還構建了一個新的 3D 關節估計評測基準,包含 243 個高質量 3D 資產,并重新設計了更符合人類偏好的評估方式。實驗中,PARTICULATE 在靜態 3D mesh 的可動結構恢復任務上明顯優于已有方法,并且能夠泛化到未見過的物體,甚至可以處理 AI 生成的 3D 資產。雷峰網
這篇論文的亮點在于,它把 3D 模型從“靜態形狀”進一步推向“可交互對象”。過去,一個 3D 生成模型可能只能生成一個外觀合理的物體,而 PARTICULATE 試圖進一步讓模型理解物體內部的可動結構。
它不僅能告訴模型“這個物體長什么樣”,還能讓模型知道“這個物體應該怎么動”。這對于機器人操作、仿真環境、游戲制作和 AI 生成 3D 內容都有很強的實用價值。

如果說 PARTICULATE 更關注靜態 3D 物體內部的“可動結構”,那么《Velox: Learning Representations of 4D Geometry and Appearance》則進一步把視角擴展到時間維度,研究物體在運動過程中的幾何和外觀變化。相關研究來自蘋果公司和多倫多大學,論文關注的是 4D 動態物體表示學習問題。
論文主要研究如何為隨時間變化的 3D 物體學習一種緊湊、通用的表示,使模型能夠同時捕捉物體的幾何結構、外觀信息和時間變化。這里的 4D 可以理解為“三維空間加時間”,也就是不僅要知道物體長什么樣,還要知道它如何運動。
以往的 3D 或 4D 表示方法往往只服務于單一任務,或者需要提前知道不同時間點之間的點對應關系,因此泛化能力有限。針對這一問題,論文提出了 Velox 框架,將輸入的時空彩色點云壓縮成一組 dynamic tokens,用這些緊湊表示來概括整個動態物體。論文中提到,這種方式可以實現超過 30 倍的壓縮,并且不需要把時間對應關系作為輸入。

論文地址:https://arxiv.org/pdf/2605.04527
方法上,Velox 使用類似 Perceiver IO 的編碼器,從無結構動態點云中提取時空信息,再通過兩個解碼器分別建模幾何和外觀。
其中 4D surface decoder 負責恢復隨時間變化的物體表面,Gaussian decoder 則將 dynamic tokens 映射成 3D Gaussians,用于恢復外觀細節。也就是說,Velox 不是逐幀處理 3D 物體,而是學習一個貫穿時間的統一動態表示。
論文將這種表示應用到 video-to-4D 生成、3D 跟蹤和布料仿真等任務中。實驗結果顯示,Velox 在動態物體重建、新視角生成和 3D 跟蹤等方面表現較好,能夠把時間、運動、幾何和外觀統一到一個緊湊表示中。
這篇論文的亮點在于,它把 3D 生成從“靜態形狀”推進到“動態世界建模”。Velox 不只是重建一個會動的物體,而是學習一種可以復用的 4D 表示,讓模型更好地理解物體在時間中的運動和變化。這對于 4D 生成、動態數字資產、機器人感知和仿真任務都有重要意義。

在 3D 和 4D 模型能力不斷增強的同時,推理效率也成為實際應用中繞不開的問題。《HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT》關注的正是 VGGT 模型的高效推理,相關研究來自首爾大學。論文主要研究如何在多視角 3D 重建中降低 VGGT 全局注意力層的計算開銷,同時盡量避免精度下降。
VGGT 依靠全局注意力來理解多張圖像之間的幾何關系,但注意力計算成本會隨著輸入視圖數量增加而快速上升,這限制了它在大規模或實時 3D 重建場景中的應用。
以往的稀疏化方法通常會對所有注意力頭使用相同的稀疏策略,也就是統一減少注意力計算。但論文指出,不同注意力頭對稀疏化的敏感程度并不一樣。有些頭對相機位姿、點云結構等幾何信息非常關鍵,如果被過度稀疏化,模型性能會明顯下降;而有些頭相對不敏感,可以承受更高程度的稀疏。

論文地址:https://arxiv.org/pdf/2603.25336v1
針對這一問題,論文提出了 HeSS,也就是 Head Sensitivity Score,用來衡量每個注意力頭對稀疏化的敏感程度。它通過一個小規模校準集,結合相機位姿誤差和點云誤差兩個指標,近似估計每個注意力頭的重要性。這樣模型就可以知道哪些頭需要保留更密集的注意力計算,哪些頭可以進一步稀疏化。
方法上,論文采用兩階段流程。第一階段是離線校準,計算每個注意力頭的 HeSS 分數;第二階段是在推理時根據這些分數重新分配注意力預算。也就是說,總計算量不一定增加,但會把更多預算分給敏感頭,把更少預算分給不敏感頭,從而在保持加速效果的同時減少重建質量損失。
這篇論文的亮點在于,它不是簡單地“統一壓縮”模型,而是根據不同注意力頭的重要性進行更精細的稀疏化分配。實驗結果顯示,HeSS 能夠有效捕捉全局注意力層中不同頭的敏感差異,在高稀疏率下比 SparseVGGT 更好地保持相機位姿估計和點云重建質量,并且可以推廣到其他基于 VGGT 的結構中。
總體來看,這篇論文的核心貢獻是讓 VGGT 這類 3D 視覺基礎模型在保持幾何精度的同時變得更高效。它說明模型加速不能只看計算量,還要理解模型內部不同模塊對任務結果的影響。對于多視角 3D 重建、實時空間感知和大規模 3D 場景建模來說,這類“精度友好型加速”方法具有較強的實用價值。

當 3D 視覺模型越來越復雜,另一個問題也隨之出現:大語言模型能不能真正幫助研究者理解并實現這些幾何算法。
《Benchmarking PhD-Level Coding in 3D Geometric Computer Vision》關注的是 3D 幾何視覺中的高難度代碼生成評測問題,相關研究來自清華大學人工智能產業研究院、清華大學求真書院、北京智源人工智能研究院、北京大學、南京大學和多倫多大學。
論文主要研究的是:當大語言模型讀到一篇 3D 視覺論文和相關代碼框架時,能否真正理解其中的幾何算法,并寫出可以運行、可以通過單元測試的研究級代碼。
這項工作的背景在于,AI 輔助編程已經在通用軟件開發中表現較強,但 3D 幾何視覺代碼并不只是普通編程。它往往涉及坐標變換、相機投影、點云處理、物理或光學公式、渲染邏輯以及多視角幾何關系。
如果模型只是“會寫代碼”,但不能準確理解論文中的數學定義和幾何約束,就很容易寫出看似合理、實際錯誤的實現。為了解決缺少專業評測的問題,論文提出了 GeoCodeBench,這是一個面向 3D 幾何視覺的博士級代碼生成基準。雷峰網(公眾號:雷峰網)
每個任務都來自真實 3D 視覺論文及其官方代碼倉庫,形式是給模型論文內容和一個被挖空的函數,讓模型補全核心實現,再通過單元測試判斷代碼是否正確。這個設定更接近真實科研場景:模型不僅要讀懂論文,還要把方法轉化成可執行代碼。

論文地址:https://arxiv.org/pdf/2603.30038v1
在數據構建上,GeoCodeBench 從 CVPR 2025、ICCV 2025 和 ICLR 2025 的 47 個代碼倉庫中篩選出 100 個高質量問題,覆蓋 Gaussian Splatting、姿態估計、SLAM、重建、NeRF、物理建模和 3D 分割等方向。
任務被分為兩大能力:一類是通用 3D 能力,包括幾何變換和力學 / 光學公式實現;另一類是科研能力,包括新算法實現和幾何邏輯組合。
論文還設計了自動化評測流程。系統會解析論文內容、提取代碼函數、生成被挖空的實現模板,并為每個問題構建覆蓋普通情況和邊界情況的單元測試。模型生成代碼后,直接在測試環境中運行,用通過率衡量結果。這種方式比只看自然語言回答更嚴格,因為代碼必須真正執行正確,才能算通過。
實驗結果顯示,當前大模型在這類任務上仍有明顯差距。論文評測了 8 個開源和閉源模型,其中表現最好的 GPT-5 總通過率也只有 36.6%。結果還顯示,模型在基礎幾何和數學公式類任務上相對更好,但在論文特定的新算法實現和幾何邏輯組合上明顯更弱,說明它們距離可靠完成 3D 科研級編程還有很大空間。
這篇論文的亮點在于,它把大模型代碼能力評測從通用編程推進到了更接近科研現場的 3D 幾何視覺場景。
GeoCodeBench 不只是考模型會不會寫 Python,而是考它能不能讀懂論文、理解幾何關系、實現核心算法并通過可復現測試。總體來看,這項工作為評估和推動“自動化 3D 視覺研究助手”提供了一個更嚴格、更真實的測試平臺。


02
為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網已全面上線【CVPR 2026 深度專區】。
專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。
掃描下方二維碼,或點擊「閱讀原文」關注專區。

與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。