• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS

    本文作者: 陳淑瑜   2026-06-09 15:40
    導語:它把 4D 場景理解,從“暴力全量輸出”,改成了 “統一接口、按需查詢”。

     

    來源:“AI前沿速遞”公眾號

    原文鏈接:https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w


    當我們看一段視頻時,看到的不只是“這一幀長什么樣”,而是一個不斷變化的 3D 世界:相機在動,物體在動,遮擋在發生,幾何關系也在不斷變化。

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS

    但過去的大多數 3D/4D 重建方法,依然在用一種偏“靜態”的方式理解世界:深度一個頭、位姿一個頭、點云一個頭、動態跟蹤再來一個系統,最后還要靠復雜的測試時優化把這些模塊拼起來。

    結果往往是:模型越來越重,推理越來越慢,一旦遇到動態場景,效果就開始掉鏈子。

    最近,Google DeepMind 等機構發布的論文 《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》 提出了一個非常直接、但也非常有效的新框架:D4RT

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS

    它的核心思想只有一句話:

    不是把整段視頻所有結果一次性“密集解碼”出來,而是把視頻先編碼成一個全局場景表示,再按需查詢任意時空點的 3D 位置。

    換句話說,它把 4D 場景理解,從“暴力全量輸出”,改成了 “統一接口、按需查詢”

    這一步看起來簡單,實際上把 動態 4D 重建、點跟蹤、深度估計、相機位姿估計,甚至全像素跟蹤,都收攏到了同一個框架里。

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    圖1:D4RT 是一個統一、高效的動態 4D 重建與跟蹤框架,可通過單一接口輸出點云、點軌跡和相機參數

    如果把傳統方法比作“每次都要把整座城市完整建模一遍”,那么 D4RT 更像是先搭好一個可檢索的世界模型。

    之后你問它:

    “第 3 幀這個像素,在第 10 幀、以第 7 幀相機坐標系表示時,它的 3D 位置在哪?”

    它就能直接回答。

    這也是論文名字里 “One D4RT at a Time” 的巧妙之處:它不是一次性把所有東西全算出來,而是一個查詢、一個查詢地把動態世界重建出來。

    接下來看看它到底是怎么做的。


    一、一個統一接口,打通 4D 重建、深度、跟蹤和相機位姿

    D4RT 的主體是一個非常清晰的 編碼器-解碼器結構。

    先給定輸入視頻:

    編碼器提取全局場景表示:

    這里的  可以理解為整段視頻壓縮后的 “全局時空記憶”。

    然后,模型定義一個查詢:

    其中:

    •  是源幀中的 2D 像素位置;
    •  是這個點來自哪一幀;
    •  是你想查詢它在哪個時間點的狀態;
    •  是你希望結果落在哪個相機坐標系下。

    最后,解碼器直接輸出這個點的 3D 位置:

    這套設計最妙的地方在于,它把 “空間位置”“時間狀態”“參考坐標系” 徹底解耦了。

    你不再需要為深度、點云、跟蹤、位姿分別寫一套任務頭,只需要換一下查詢方式,同一個模型就能完成不同任務

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    圖2:D4RT 總體框架圖。輸入視頻先被編碼成全局場景表示,再通過輕量解碼器查詢任意時空點的 3D 位置

    更進一步,論文還給出了相機位姿和內參的求法。

    對于相機外參,作者構造兩組查詢:

    這樣就能得到同一批 3D 點在兩個參考坐標系下的表示,再通過剛體變換估計相對位姿。

    對于相機內參,在針孔模型假設下,焦距可以由預測點坐標直接反推:

    這意味著 D4RT 并不是“只能做點跟蹤”,而是真正把動態場景里的 幾何、運動和相機 都納入了一個統一解碼框架。

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    表1:統一解碼接口。通過改變查詢中 $u,v,t_{src},t_{tgt},t_{cam}$ 的取值方式,同一個模型接口就能完成多種幾何任務

    一句話總結:

    別的方法是“一個任務一套頭”,D4RT 是“一個接口全包”。


    二、為什么它會快這么多

    這篇論文最讓人眼前一亮的,不只是統一,還在于 效率。

    很多 4D 方法在推理階段慢得離譜,本質原因是它們要么依賴多模型拼接,要么需要密集逐幀解碼,要么查詢成本太高。

    D4RT 反其道而行之:

    • 查詢是稀疏的;
    • 解碼器是輕量的;
    • 每個查詢彼此獨立

    論文中還提出了一個基于占據網格的全像素跟蹤加速策略:

    它只從還沒訪問過的像素發起新軌跡,從而把密集跟蹤的代價大幅壓縮。作者報告,這個策略能帶來 5-15 倍的自適應加速

    更夸張的是,在相機位姿估計上,D4RT 直接把速度和精度同時拉高。

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    圖3:位姿估計中的精度-速度對比。D4RT 同時實現更高精度和更高吞吐,在 A100 上達到 200+ FPS,比 VGGT 快約 9 倍,比 MegaSaM 快約 100 倍

    這其實特別關鍵。

    因為視頻 4D 理解最怕的不是“論文指標不夠高”,而是 “指標高但根本跑不動”

    D4RT 的意義在于,它第一次把動態 4D 重建推到了一個真正 可擴展、可部署 的效率區間。


    三、動態場景里,它終于不再“看花眼”

    動態場景一直是 3D 重建最難的部分。

    靜態世界里,物體不動,圖像間匹配還能靠多視圖幾何硬撐;但只要天鵝游起來、火車開起來、人物走起來,很多傳統方法就會出現明顯問題:

    • 動態物體被重復重建;
    • 動態目標直接丟失;
    • 只能跟蹤第一幀可見點,后續遮擋區域徹底斷裂

    而 D4RT 的優勢,恰恰就在這里體現得最明顯。

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    圖4:不同方法在動態場景中的重建效果對比。D4RT 是唯一能夠完整重建全視頻所有像素 4D 表示的方法

    這張圖其實就是整篇論文最想講明白的一件事:

    過去的方法,要么會重建,但不會理解動態;要么會跟蹤動態,但重建不完整。

    D4RT 第一次把 “動態理解” 和 “整體重建” 真正統一了。


    四、核心定量結果:D4RT 在點云和視頻深度上都沖到了第一梯隊

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    表2:原論文 Table 5 的核心結果摘錄。論文在 Sintel、ScanNet、KITTI、Bonn 等基準上評估點云與視頻深度,D4RT 在動態場景中優勢尤其明顯

    這張表很說明問題。

    在最難的動態場景 Sintel 上,D4RT 的點云誤差直接從 1.x 量級打到 0.768;在視頻深度上,也把 AbsRel 壓到了當前最優水平附近甚至更優。

    如果只看靜態場景,很多方法都還能勉強“卷一卷”;但一旦進入動態場景,D4RT 的領先幅度會明顯變大。

    這也從側面說明,它真正學到的是 時空一致的 4D 表示,而不是靜態幾何的拼接近似。


    五、它不只會“看大結構”,還保住了細節

    很多統一模型都會遇到一個經典問題:一旦過于追求全局建模,局部邊界和細節就容易糊。

    D4RT 為了解決這個問題,在查詢中額外加入了 局部 RGB patch 的外觀嵌入

    論文發現,這個設計非常值。

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    圖5:D4RT 在野外視頻中的可視化結果。它既能處理靜態場景,也能穩定恢復動態場景中的 3D 軌跡
    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    圖6:加入局部外觀 patch 后,D4RT 在深度圖中能更好保留細粒度邊界與低層細節

    說明:
    Figure 6 在 arXiv HTML 中為復合圖,直接展示為細節保真實驗圖,適合放在“細節保留”部分。


    六、一個小設計,為什么能帶來這么大提升

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    表3:原論文 Table 7。給查詢加入局部外觀 patch 后,視頻深度和相機位姿指標全面提升

    這張表特別值得注意。

    因為它說明 D4RT 的性能提升,不只是來自“大模型 + 大算力”,而是來自一個非常扎實的設計判斷:

    全局場景表示負責理解時空結構,局部 patch 負責補足紋理和邊界細節。

    兩者一結合,模型才真正做到:

    既懂世界,又看得清局部。


    七、為什么說它不是“功能拼盤”,而是真統一

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS
    表4:原論文 Table 2 從任務覆蓋、功能靈活性和架構復雜度三個層面對比方法能力。D4RT 是少數同時具備完整能力組合的方法

    這也是為什么我會覺得,這篇工作真正重要的不是“又刷了一個榜”,而是它把 4D 視頻理解重新整理了一遍:

    不是更多模塊,不是更復雜 pipeline,而是用一個足夠干凈的接口,把原本分裂的任務收攏到了同一套表示里。


    八、最后一句

    如果說過去的視頻理解,更多是在做 “逐幀視覺 + 后處理補丁”,那么 D4RT 往前邁出的一步是:

    讓模型第一次開始像在理解一個連續變化的 4D 世界。

    它看到的不再只是某一幀里“這里有個點”,而是這個點來自哪里、會運動到哪里、該落在哪個坐標系里,以及它與整個動態場景的關系。

    統一、準確、可擴展,還足夠快。

    這可能就是動態 4D 重建下一階段最重要的方向。


    文末摘要

    1. 1. 論文提出 D4RT,用統一查詢接口完成動態 4D 重建、點跟蹤、深度估計和相機參數恢復。
    2. 2. 核心公式是先編碼整段視頻得到全局場景表示:

    再通過查詢:

    解碼目標 3D 點:

    1. 3. 在動態場景上,D4RT 同時解決了 “純重建不會跟動態、純跟蹤又重建不完整” 的老問題。
    2. 4. 在位姿估計上達到 200+ FPS,比 VGGT 快約 9 倍,比 MegaSaM 快約 100 倍。
    3. 5. 在 Sintel 等高難動態基準上,點云與視頻深度結果進入 SOTA 第一梯隊

    論文信息

    論文標題:Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

    論文地址:https://arxiv.org/abs/2512.08924

    CVPR 26 最佳論文 | 谷歌 DeepMind 放大招:一個 Transformer 直接“看懂”動態世界,4D 重建速度飆到 200+ FPS

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 男人扒开添女人下部免费视频 | 久久天天躁狠狠躁夜夜躁| 成人网站免费观看永久视频下载| 丰满少妇αⅴ无码区| 91午夜福利一区二区三区| 野花社区视频www官网| 91免费在线| 中国熟妇毛多多裸交视频| 亚洲欧洲无码AV| 自拍偷自拍亚洲精品偷一| 夜夜躁狠狠躁日日躁av| 日本一区午夜艳熟免费| 人妻在线中文字幕| 激情综合网激情综合| 日韩一区二区三区女优丝袜| 东京热人妻无码一区二区av| 精品成a人无码| 国产精品国产三级国产专播| 国产精品美女久久久久久麻豆 | 国产精品护士| 99久久国产宗和精品1上映 | 中文字幕亚洲无线码一区女同| 欧美亚洲一区在线| 徐闻县| 国产999久久高清免费观看| 国产日韩入口一区二区| 国产福利姬喷水福利在线观看| 久久香蕉综合色一综合色88| 无码爆乳护士让我爽| 99精品众筹模特在线视频| 亚洲精品区午夜亚洲精品区| Chinese国产AVvideoXXXX实拍| 亚洲欧美另类小说| 国产在线91在线电影| 国产伦码精品一区二区| 精品乱码一区二区| 色无码日韩无码精品| 真实国产乱子伦清晰对白视频 | 97福利在线| 丰都县| 欧美亚洲另类一区二区三区|