• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給鄭佳美
    發送

    0

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    本文作者: 鄭佳美   2026-06-08 10:33
    導語:可動結構、4D 表征與高效重建登場。
    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互
    可動結構、4D 表征與高效重建登場。

        作者丨鄭佳美

        編輯丨馬曉寧

                                                                                                                   

    2026 年 6 月 1 日,國際機器人與自動化會議(ICRA)在奧地利維也納召開。次日上午的自動駕駛與導航報告環節,雷峰網GAIR 2021大會嘉賓、上海交通大學教授王賀升發表了題為《Learning to Navigate: From Scene Understanding to Decision Makin》的演講。

    3D 視覺研究正在從“重建形狀”走向“理解空間”。過去,一個模型只要能生成外觀合理的三維物體,就已經足夠令人關注。

    但現在,真正重要的問題正在變得更復雜:模型能否判斷一個物體內部哪些部件可以運動,能否理解動態物體在時間中的幾何和外觀變化,能否在多視角重建中兼顧精度與效率,甚至能否讀懂復雜的 3D 幾何論文并寫出可復現的研究代碼。

    這種轉變也體現在 CVPR 2026 相關研究所關注的問題上。研究者不再只滿足于讓 AI 生成一個靜態 3D 模型,而是希望它進一步理解物體的結構、運動方式、時空表示和計算過程。

    一個抽屜不只是一個長方體,而是應該知道它可以沿軌道滑動;一個動態物體不只是連續的幾幀形狀,而是需要被統一表示和長期追蹤;一個 3D 基礎模型也不只是越大越好,還必須在實際場景中高效、穩定地運行。

    更深層來看,3D AI正在從單點能力走向系統能力。它不僅要回答“物體長什么樣”,還要回答“它怎么動”、“如何被重建”、“如何高效運行”、“如何被研究者復現和擴展”。當這些能力逐漸連在一起,3D 模型才更接近真正可用的空間智能系統,也更接近機器人、仿真、數字孿生和生成式 3D 內容所需要的核心基礎。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    01


    從可動結構到 4D 動態表示

    《PARTICULATE: Feed-Forward 3D Object Articulation》關注的是 3D 物體自動關節化問題,相關研究來自牛津大學、劍橋大學和南洋理工大學。

    論文主要研究如何從一個靜態 3D 網格中,自動推斷出物體的可動結構,包括物體由哪些可動部件組成、這些部件之間如何連接,以及它們分別沿著什么方向旋轉或滑動。

    這項任務的意義在于,很多現實物體并不只是“有形狀”,還具有可運動的結構。比如柜門可以旋轉打開,抽屜可以沿軌道滑動,水龍頭、椅子、行李箱等物體也都有不同形式的可動部件。

    對于機器人操作、物理仿真、游戲資產和數字孿生來說,僅有一個靜態 3D 模型是不夠的,還需要知道這個物體“哪里能動、怎么動、動多少”。

    以往的方法往往依賴規則建模、部件檢索,或者針對單個物體進行優化,推理速度慢,也很難覆蓋真實世界中種類豐富的物體。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    論文地址:https://arxiv.org/pdf/2512.11798

    針對這一問題,論文提出了 PARTICULATE 框架,它可以在一次前向推理中,從輸入的 3D mesh 直接預測完整的關節結構,并在數秒內生成一個可用于物理引擎的可動 3D 模型。

    方法上,論文設計了 Part Articulation Transformer,也就是 PAT。它會先從輸入 mesh 中采樣點云,并結合表面法向量和 PartField 提取的 3D 語義部件特征,然后通過 Transformer 結構和多個解碼頭,同時預測部件分割、運動學樹、關節類型、運動軸和運動范圍。也就是說,模型不僅要把物體切分成不同部件,還要判斷這些部件之間的父子關系,以及每個部件是旋轉、平移,還是固定不動。

    論文還構建了一個新的 3D 關節估計評測基準,包含 243 個高質量 3D 資產,并重新設計了更符合人類偏好的評估方式。實驗中,PARTICULATE 在靜態 3D mesh 的可動結構恢復任務上明顯優于已有方法,并且能夠泛化到未見過的物體,甚至可以處理 AI 生成的 3D 資產。雷峰網

    這篇論文的亮點在于,它把 3D 模型從“靜態形狀”進一步推向“可交互對象”。過去,一個 3D 生成模型可能只能生成一個外觀合理的物體,而 PARTICULATE 試圖進一步讓模型理解物體內部的可動結構。

    它不僅能告訴模型“這個物體長什么樣”,還能讓模型知道“這個物體應該怎么動”。這對于機器人操作、仿真環境、游戲制作和 AI 生成 3D 內容都有很強的實用價值。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    如果說 PARTICULATE 更關注靜態 3D 物體內部的“可動結構”,那么《Velox: Learning Representations of 4D Geometry and Appearance》則進一步把視角擴展到時間維度,研究物體在運動過程中的幾何和外觀變化。相關研究來自蘋果公司和多倫多大學,論文關注的是 4D 動態物體表示學習問題。

    論文主要研究如何為隨時間變化的 3D 物體學習一種緊湊、通用的表示,使模型能夠同時捕捉物體的幾何結構、外觀信息和時間變化。這里的 4D 可以理解為“三維空間加時間”,也就是不僅要知道物體長什么樣,還要知道它如何運動。

    以往的 3D 或 4D 表示方法往往只服務于單一任務,或者需要提前知道不同時間點之間的點對應關系,因此泛化能力有限。針對這一問題,論文提出了 Velox 框架,將輸入的時空彩色點云壓縮成一組 dynamic tokens,用這些緊湊表示來概括整個動態物體。論文中提到,這種方式可以實現超過 30 倍的壓縮,并且不需要把時間對應關系作為輸入。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    論文地址:https://arxiv.org/pdf/2605.04527

    方法上,Velox 使用類似 Perceiver IO 的編碼器,從無結構動態點云中提取時空信息,再通過兩個解碼器分別建模幾何和外觀。

    其中 4D surface decoder 負責恢復隨時間變化的物體表面,Gaussian decoder 則將 dynamic tokens 映射成 3D Gaussians,用于恢復外觀細節。也就是說,Velox 不是逐幀處理 3D 物體,而是學習一個貫穿時間的統一動態表示。

    論文將這種表示應用到 video-to-4D 生成、3D 跟蹤和布料仿真等任務中。實驗結果顯示,Velox 在動態物體重建、新視角生成和 3D 跟蹤等方面表現較好,能夠把時間、運動、幾何和外觀統一到一個緊湊表示中。

    這篇論文的亮點在于,它把 3D 生成從“靜態形狀”推進到“動態世界建模”。Velox 不只是重建一個會動的物體,而是學習一種可以復用的 4D 表示,讓模型更好地理解物體在時間中的運動和變化。這對于 4D 生成、動態數字資產、機器人感知和仿真任務都有重要意義。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    在 3D 和 4D 模型能力不斷增強的同時,推理效率也成為實際應用中繞不開的問題。《HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT》關注的正是 VGGT 模型的高效推理,相關研究來自首爾大學。論文主要研究如何在多視角 3D 重建中降低 VGGT 全局注意力層的計算開銷,同時盡量避免精度下降。

    VGGT 依靠全局注意力來理解多張圖像之間的幾何關系,但注意力計算成本會隨著輸入視圖數量增加而快速上升,這限制了它在大規模或實時 3D 重建場景中的應用。

    以往的稀疏化方法通常會對所有注意力頭使用相同的稀疏策略,也就是統一減少注意力計算。但論文指出,不同注意力頭對稀疏化的敏感程度并不一樣。有些頭對相機位姿、點云結構等幾何信息非常關鍵,如果被過度稀疏化,模型性能會明顯下降;而有些頭相對不敏感,可以承受更高程度的稀疏。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    論文地址:https://arxiv.org/pdf/2603.25336v1

    針對這一問題,論文提出了 HeSS,也就是 Head Sensitivity Score,用來衡量每個注意力頭對稀疏化的敏感程度。它通過一個小規模校準集,結合相機位姿誤差和點云誤差兩個指標,近似估計每個注意力頭的重要性。這樣模型就可以知道哪些頭需要保留更密集的注意力計算,哪些頭可以進一步稀疏化。

    方法上,論文采用兩階段流程。第一階段是離線校準,計算每個注意力頭的 HeSS 分數;第二階段是在推理時根據這些分數重新分配注意力預算。也就是說,總計算量不一定增加,但會把更多預算分給敏感頭,把更少預算分給不敏感頭,從而在保持加速效果的同時減少重建質量損失。

    這篇論文的亮點在于,它不是簡單地“統一壓縮”模型,而是根據不同注意力頭的重要性進行更精細的稀疏化分配。實驗結果顯示,HeSS 能夠有效捕捉全局注意力層中不同頭的敏感差異,在高稀疏率下比 SparseVGGT 更好地保持相機位姿估計和點云重建質量,并且可以推廣到其他基于 VGGT 的結構中。

    總體來看,這篇論文的核心貢獻是讓 VGGT 這類 3D 視覺基礎模型在保持幾何精度的同時變得更高效。它說明模型加速不能只看計算量,還要理解模型內部不同模塊對任務結果的影響。對于多視角 3D 重建、實時空間感知和大規模 3D 場景建模來說,這類“精度友好型加速”方法具有較強的實用價值。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    當 3D 視覺模型越來越復雜,另一個問題也隨之出現:大語言模型能不能真正幫助研究者理解并實現這些幾何算法。

    《Benchmarking PhD-Level Coding in 3D Geometric Computer Vision》關注的是 3D 幾何視覺中的高難度代碼生成評測問題,相關研究來自清華大學人工智能產業研究院、清華大學求真書院、北京智源人工智能研究院、北京大學、南京大學和多倫多大學。

    論文主要研究的是:當大語言模型讀到一篇 3D 視覺論文和相關代碼框架時,能否真正理解其中的幾何算法,并寫出可以運行、可以通過單元測試的研究級代碼。

    這項工作的背景在于,AI 輔助編程已經在通用軟件開發中表現較強,但 3D 幾何視覺代碼并不只是普通編程。它往往涉及坐標變換、相機投影、點云處理、物理或光學公式、渲染邏輯以及多視角幾何關系。

    如果模型只是“會寫代碼”,但不能準確理解論文中的數學定義和幾何約束,就很容易寫出看似合理、實際錯誤的實現。為了解決缺少專業評測的問題,論文提出了 GeoCodeBench,這是一個面向 3D 幾何視覺的博士級代碼生成基準。雷峰網(公眾號:雷峰網)

    每個任務都來自真實 3D 視覺論文及其官方代碼倉庫,形式是給模型論文內容和一個被挖空的函數,讓模型補全核心實現,再通過單元測試判斷代碼是否正確。這個設定更接近真實科研場景:模型不僅要讀懂論文,還要把方法轉化成可執行代碼。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    論文地址:https://arxiv.org/pdf/2603.30038v1

    在數據構建上,GeoCodeBench 從 CVPR 2025、ICCV 2025 和 ICLR 2025 的 47 個代碼倉庫中篩選出 100 個高質量問題,覆蓋 Gaussian Splatting、姿態估計、SLAM、重建、NeRF、物理建模和 3D 分割等方向。

    任務被分為兩大能力:一類是通用 3D 能力,包括幾何變換和力學 / 光學公式實現;另一類是科研能力,包括新算法實現和幾何邏輯組合。

    論文還設計了自動化評測流程。系統會解析論文內容、提取代碼函數、生成被挖空的實現模板,并為每個問題構建覆蓋普通情況和邊界情況的單元測試。模型生成代碼后,直接在測試環境中運行,用通過率衡量結果。這種方式比只看自然語言回答更嚴格,因為代碼必須真正執行正確,才能算通過。

    實驗結果顯示,當前大模型在這類任務上仍有明顯差距。論文評測了 8 個開源和閉源模型,其中表現最好的 GPT-5 總通過率也只有 36.6%。結果還顯示,模型在基礎幾何和數學公式類任務上相對更好,但在論文特定的新算法實現和幾何邏輯組合上明顯更弱,說明它們距離可靠完成 3D 科研級編程還有很大空間。

    這篇論文的亮點在于,它把大模型代碼能力評測從通用編程推進到了更接近科研現場的 3D 幾何視覺場景。

    GeoCodeBench 不只是考模型會不會寫 Python,而是考它能不能讀懂論文、理解幾何關系、實現核心算法并通過可復現測試。總體來看,這項工作為評估和推動“自動化 3D 視覺研究助手”提供了一個更嚴格、更真實的測試平臺。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互
    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    02


    去哪看 CVPR 核心

    【演講/論文】詳解?

    為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨,雷峰網已全面上線【CVPR 2026 深度專區】

    專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講,更將持續更新前方記者的第一手會議動態。

    掃描下方二維碼,或點擊閱讀原文關注專區。

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    與全球 8000 名頂尖大腦同步呼吸,搶先透視具身智能的下一個五年!

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    CVPR 2026 幾何智能研究盤點:從看見形狀,到理解運動與交互

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: aa中文化产品产二区在线| 一区二区在线观看 激情| 国产精品久久vr专区| 国产成人久久婷婷精品流白浆| 国产在线播放不卡免费视频| av日韩精品在线播放| 67194熟妇在线观看线路| 国内大量揄拍人妻精品視頻| 精品人妻久久久一区二区三区| 色欲狠狠躁天天躁无码中文字幕 | 一级做a爰片久久毛片下载| 亚洲av日韩av综合在线观看| 欧美怡春院| 男女交性全过程无遮挡会员视频| 日韩一区国产二区欧美三区| 日本在线 | 中文| 亚洲在线一区| 先锋影音av资源网| 熟女一区二区中文字幕| 亚洲国产成人aⅴ毛片大全| 91麻豆极品在线观看| 亚洲国产在一区二区三区| 色综合视频一区二区三区| 99精品视频在线观看| 99久久国产宗和精品1上映| 波多野结衣一二三区AV无码| 国产精品无码不卡在线播放| 日本中文一区二区三区亚洲| 欧美精品日韩精品一卡| 又大又粗又硬又爽黄毛少妇 | 99国产欧美另类久久久精品| 久久中文字幕无码不卡一二区| 91社区在线| 国产亚洲中文| 免费无码肉片在线观看| 老鸭窝在线视频| 你懂的国产在线| 日本污视频在线观看| 日本久久久免费高清| 精品国产网红福利在线观看| 国产精品18禁久久久久久白浆|