CVPR 2026 幾何智能研究盤點：從看見形狀，到理解運動與交互

本文作者：鄭佳美

2026-06-08 10:33

導語：可動結構、4D 表征與高效重建登場。

可動結構、4D 表征與高效重建登場。

作者丨鄭佳美

編輯丨馬曉寧

2026 年 6 月 1 日，國際機器人與自動化會議（ICRA）在奧地利維也納召開。次日上午的自動駕駛與導航報告環節，雷峰網GAIR 2021大會嘉賓、上海交通大學教授王賀升發表了題為《Learning to Navigate: From Scene Understanding to Decision Makin》的演講。

3D 視覺研究正在從“重建形狀”走向“理解空間”。過去，一個模型只要能生成外觀合理的三維物體，就已經足夠令人關注。

但現在，真正重要的問題正在變得更復雜：模型能否判斷一個物體內部哪些部件可以運動，能否理解動態物體在時間中的幾何和外觀變化，能否在多視角重建中兼顧精度與效率，甚至能否讀懂復雜的 3D 幾何論文并寫出可復現的研究代碼。

這種轉變也體現在 CVPR 2026 相關研究所關注的問題上。研究者不再只滿足于讓 AI 生成一個靜態 3D 模型，而是希望它進一步理解物體的結構、運動方式、時空表示和計算過程。

一個抽屜不只是一個長方體，而是應該知道它可以沿軌道滑動；一個動態物體不只是連續的幾幀形狀，而是需要被統一表示和長期追蹤；一個 3D 基礎模型也不只是越大越好，還必須在實際場景中高效、穩定地運行。

更深層來看，3D AI正在從單點能力走向系統能力。它不僅要回答“物體長什么樣”，還要回答“它怎么動”、“如何被重建”、“如何高效運行”、“如何被研究者復現和擴展”。當這些能力逐漸連在一起，3D 模型才更接近真正可用的空間智能系統，也更接近機器人、仿真、數字孿生和生成式 3D 內容所需要的核心基礎。

從可動結構到 4D 動態表示

《PARTICULATE: Feed-Forward 3D Object Articulation》關注的是 3D 物體自動關節化問題，相關研究來自牛津大學、劍橋大學和南洋理工大學。

論文主要研究如何從一個靜態 3D 網格中，自動推斷出物體的可動結構，包括物體由哪些可動部件組成、這些部件之間如何連接，以及它們分別沿著什么方向旋轉或滑動。

這項任務的意義在于，很多現實物體并不只是“有形狀”，還具有可運動的結構。比如柜門可以旋轉打開，抽屜可以沿軌道滑動，水龍頭、椅子、行李箱等物體也都有不同形式的可動部件。

對于機器人操作、物理仿真、游戲資產和數字孿生來說，僅有一個靜態 3D 模型是不夠的，還需要知道這個物體“哪里能動、怎么動、動多少”。

以往的方法往往依賴規則建模、部件檢索，或者針對單個物體進行優化，推理速度慢，也很難覆蓋真實世界中種類豐富的物體。

論文地址：https://arxiv.org/pdf/2512.11798

針對這一問題，論文提出了 PARTICULATE 框架，它可以在一次前向推理中，從輸入的 3D mesh 直接預測完整的關節結構，并在數秒內生成一個可用于物理引擎的可動 3D 模型。

方法上，論文設計了 Part Articulation Transformer，也就是 PAT。它會先從輸入 mesh 中采樣點云，并結合表面法向量和 PartField 提取的 3D 語義部件特征，然后通過 Transformer 結構和多個解碼頭，同時預測部件分割、運動學樹、關節類型、運動軸和運動范圍。也就是說，模型不僅要把物體切分成不同部件，還要判斷這些部件之間的父子關系，以及每個部件是旋轉、平移，還是固定不動。

論文還構建了一個新的 3D 關節估計評測基準，包含 243 個高質量 3D 資產，并重新設計了更符合人類偏好的評估方式。實驗中，PARTICULATE 在靜態 3D mesh 的可動結構恢復任務上明顯優于已有方法，并且能夠泛化到未見過的物體，甚至可以處理 AI 生成的 3D 資產。雷峰網

這篇論文的亮點在于，它把 3D 模型從“靜態形狀”進一步推向“可交互對象”。過去，一個 3D 生成模型可能只能生成一個外觀合理的物體，而 PARTICULATE 試圖進一步讓模型理解物體內部的可動結構。

它不僅能告訴模型“這個物體長什么樣”，還能讓模型知道“這個物體應該怎么動”。這對于機器人操作、仿真環境、游戲制作和 AI 生成 3D 內容都有很強的實用價值。

如果說 PARTICULATE 更關注靜態 3D 物體內部的“可動結構”，那么《Velox: Learning Representations of 4D Geometry and Appearance》則進一步把視角擴展到時間維度，研究物體在運動過程中的幾何和外觀變化。相關研究來自蘋果公司和多倫多大學，論文關注的是 4D 動態物體表示學習問題。

論文主要研究如何為隨時間變化的 3D 物體學習一種緊湊、通用的表示，使模型能夠同時捕捉物體的幾何結構、外觀信息和時間變化。這里的 4D 可以理解為“三維空間加時間”，也就是不僅要知道物體長什么樣，還要知道它如何運動。

以往的 3D 或 4D 表示方法往往只服務于單一任務，或者需要提前知道不同時間點之間的點對應關系，因此泛化能力有限。針對這一問題，論文提出了 Velox 框架，將輸入的時空彩色點云壓縮成一組 dynamic tokens，用這些緊湊表示來概括整個動態物體。論文中提到，這種方式可以實現超過 30 倍的壓縮，并且不需要把時間對應關系作為輸入。

論文地址：https://arxiv.org/pdf/2605.04527

方法上，Velox 使用類似 Perceiver IO 的編碼器，從無結構動態點云中提取時空信息，再通過兩個解碼器分別建模幾何和外觀。

其中 4D surface decoder 負責恢復隨時間變化的物體表面，Gaussian decoder 則將 dynamic tokens 映射成 3D Gaussians，用于恢復外觀細節。也就是說，Velox 不是逐幀處理 3D 物體，而是學習一個貫穿時間的統一動態表示。

論文將這種表示應用到 video-to-4D 生成、3D 跟蹤和布料仿真等任務中。實驗結果顯示，Velox 在動態物體重建、新視角生成和 3D 跟蹤等方面表現較好，能夠把時間、運動、幾何和外觀統一到一個緊湊表示中。

這篇論文的亮點在于，它把 3D 生成從“靜態形狀”推進到“動態世界建模”。Velox 不只是重建一個會動的物體，而是學習一種可以復用的 4D 表示，讓模型更好地理解物體在時間中的運動和變化。這對于 4D 生成、動態數字資產、機器人感知和仿真任務都有重要意義。

在 3D 和 4D 模型能力不斷增強的同時，推理效率也成為實際應用中繞不開的問題。《HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT》關注的正是 VGGT 模型的高效推理，相關研究來自首爾大學。論文主要研究如何在多視角 3D 重建中降低 VGGT 全局注意力層的計算開銷，同時盡量避免精度下降。

VGGT 依靠全局注意力來理解多張圖像之間的幾何關系，但注意力計算成本會隨著輸入視圖數量增加而快速上升，這限制了它在大規模或實時 3D 重建場景中的應用。

以往的稀疏化方法通常會對所有注意力頭使用相同的稀疏策略，也就是統一減少注意力計算。但論文指出，不同注意力頭對稀疏化的敏感程度并不一樣。有些頭對相機位姿、點云結構等幾何信息非常關鍵，如果被過度稀疏化，模型性能會明顯下降；而有些頭相對不敏感，可以承受更高程度的稀疏。

論文地址：https://arxiv.org/pdf/2603.25336v1

針對這一問題，論文提出了 HeSS，也就是 Head Sensitivity Score，用來衡量每個注意力頭對稀疏化的敏感程度。它通過一個小規模校準集，結合相機位姿誤差和點云誤差兩個指標，近似估計每個注意力頭的重要性。這樣模型就可以知道哪些頭需要保留更密集的注意力計算，哪些頭可以進一步稀疏化。

方法上，論文采用兩階段流程。第一階段是離線校準，計算每個注意力頭的 HeSS 分數；第二階段是在推理時根據這些分數重新分配注意力預算。也就是說，總計算量不一定增加，但會把更多預算分給敏感頭，把更少預算分給不敏感頭，從而在保持加速效果的同時減少重建質量損失。

這篇論文的亮點在于，它不是簡單地“統一壓縮”模型，而是根據不同注意力頭的重要性進行更精細的稀疏化分配。實驗結果顯示，HeSS 能夠有效捕捉全局注意力層中不同頭的敏感差異，在高稀疏率下比 SparseVGGT 更好地保持相機位姿估計和點云重建質量，并且可以推廣到其他基于 VGGT 的結構中。

總體來看，這篇論文的核心貢獻是讓 VGGT 這類 3D 視覺基礎模型在保持幾何精度的同時變得更高效。它說明模型加速不能只看計算量，還要理解模型內部不同模塊對任務結果的影響。對于多視角 3D 重建、實時空間感知和大規模 3D 場景建模來說，這類“精度友好型加速”方法具有較強的實用價值。

當 3D 視覺模型越來越復雜，另一個問題也隨之出現：大語言模型能不能真正幫助研究者理解并實現這些幾何算法。

《Benchmarking PhD-Level Coding in 3D Geometric Computer Vision》關注的是 3D 幾何視覺中的高難度代碼生成評測問題，相關研究來自清華大學人工智能產業研究院、清華大學求真書院、北京智源人工智能研究院、北京大學、南京大學和多倫多大學。

論文主要研究的是：當大語言模型讀到一篇 3D 視覺論文和相關代碼框架時，能否真正理解其中的幾何算法，并寫出可以運行、可以通過單元測試的研究級代碼。

這項工作的背景在于，AI 輔助編程已經在通用軟件開發中表現較強，但 3D 幾何視覺代碼并不只是普通編程。它往往涉及坐標變換、相機投影、點云處理、物理或光學公式、渲染邏輯以及多視角幾何關系。

如果模型只是“會寫代碼”，但不能準確理解論文中的數學定義和幾何約束，就很容易寫出看似合理、實際錯誤的實現。為了解決缺少專業評測的問題，論文提出了 GeoCodeBench，這是一個面向 3D 幾何視覺的博士級代碼生成基準。雷峰網(公眾號：雷峰網)

每個任務都來自真實 3D 視覺論文及其官方代碼倉庫，形式是給模型論文內容和一個被挖空的函數，讓模型補全核心實現，再通過單元測試判斷代碼是否正確。這個設定更接近真實科研場景：模型不僅要讀懂論文，還要把方法轉化成可執行代碼。

論文地址：https://arxiv.org/pdf/2603.30038v1

在數據構建上，GeoCodeBench 從 CVPR 2025、ICCV 2025 和 ICLR 2025 的 47 個代碼倉庫中篩選出 100 個高質量問題，覆蓋 Gaussian Splatting、姿態估計、SLAM、重建、NeRF、物理建模和 3D 分割等方向。

任務被分為兩大能力：一類是通用 3D 能力，包括幾何變換和力學 / 光學公式實現；另一類是科研能力，包括新算法實現和幾何邏輯組合。

論文還設計了自動化評測流程。系統會解析論文內容、提取代碼函數、生成被挖空的實現模板，并為每個問題構建覆蓋普通情況和邊界情況的單元測試。模型生成代碼后，直接在測試環境中運行，用通過率衡量結果。這種方式比只看自然語言回答更嚴格，因為代碼必須真正執行正確，才能算通過。

實驗結果顯示，當前大模型在這類任務上仍有明顯差距。論文評測了 8 個開源和閉源模型，其中表現最好的 GPT-5 總通過率也只有 36.6%。結果還顯示，模型在基礎幾何和數學公式類任務上相對更好，但在論文特定的新算法實現和幾何邏輯組合上明顯更弱，說明它們距離可靠完成 3D 科研級編程還有很大空間。

這篇論文的亮點在于，它把大模型代碼能力評測從通用編程推進到了更接近科研現場的 3D 幾何視覺場景。

GeoCodeBench 不只是考模型會不會寫 Python，而是考它能不能讀懂論文、理解幾何關系、實現核心算法并通過可復現測試。總體來看，這項工作為評估和推動“自動化 3D 視覺研究助手”提供了一個更嚴格、更真實的測試平臺。

去哪看 CVPR 核心

【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨，雷峰網已全面上線【CVPR 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

掃描下方二維碼，或點擊「閱讀原文」關注專區。

CVPR 2026 幾何智能研究盤點：從看見形狀，到理解運動與交互

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

鄭佳美

編輯

發私信

當月熱門文章