• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%

    本文作者: 陳淑瑜   2026-05-28 14:50 專題:CVPR 計算機視覺與模式識別會議
    導語:VGGT-Ω通過一套精妙的架構改進,實現了對動態場景的高精度重建,在 Sintel 等極具挑戰性的基準測試中,將相機估計精度足足提升了 77%。

    來源:公眾號“我愛計算機視覺”

    原文鏈接:https://mp.weixin.qq.com/s/4-schz_SOIDnnHpROzrUjw?scene=1&click_id=154


    在計算機視覺領域,3D 重建一直被視為一項“硬核”任務。傳統的結構從運動(Structure-from-Motion, SfM)算法往往需要復雜的離線優化,而近年來興起的前饋重建模型雖然速度快,但在處理大規模數據和復雜動態場景時尚需提升。最近,來自牛津大學視覺幾何組(Visual Geometry Group, VGG)和 Meta AI 的研究團隊發布了全新的重建大模型 VGGT-Ω,試圖通過“規模化(Scaling)”的力量徹底改變這一現狀。

    它不僅將參數量推向了 100 億(10B),更通過一套精妙的架構改進,實現了對動態場景的高精度重建,在 Sintel 等極具挑戰性的基準測試中,將相機估計精度足足提升了 77%。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    • 論文地址: https://arxiv.org/abs/2605.15195
    • 項目主頁: https://vggt-omega.github.io
    • 代碼倉庫: https://github.com/facebookresearch/vggt-omega
    • 錄用信息: CVPR 2026 Oral

    為什么重建也需要 Scaling Law?

    在自然語言處理和 2D 視覺領域,我們已經見證了模型性能隨數據和參數規模呈冪律增長的奇跡。但在 3D 視覺中,這種“規模效應”是否依然存在?

    VGGT-Ω 的研究團隊發現,重建任務其實是學習空間理解表征的絕佳“代理任務”。通過訓練模型預測相機姿態和深度,模型被迫理解場景的幾何結構、物體間的遮擋關系甚至是物體的運動規律。為了驗證這一猜想,團隊將模型從 2 億參數擴展到 100 億,并將訓練數據從幾千個序列增加到 400 萬個。實驗結果顯示:性能提升的曲線幾乎是一條完美的直線。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    性能隨規模提升的曲線

    架構的“減法”與“加法”

    要在如此大規模的數據上訓練 10B 模型,原有的 VGGT 架構顯然太重了。VGGT-Ω 通過對計算瓶頸的精準打擊,實現了效率與能力的雙重飛躍。

    核心輸入與輸出流程

    VGGT-Ω 作為一個前饋 Transformer 模型 ,其核心任務是將  張輸入圖像  直接映射為對應的相機參數和深度圖:

    其中, 是深度圖, 包含了旋轉四元數、平移向量和視場角(Field of View, FoV)。

    引入寄存器注意力(Register Attention)

    研究人員觀察到,Vision Transformer(ViT)在處理圖像時,往往會自發地利用一小部分 Token 來攜帶全局信息。于是,VGGT-Ω 顯式地為每幀圖像添加了 16 個寄存器(Registers),也稱為“場景 Token”。

    更有趣的設計在于寄存器注意力:在 25% 的全局注意力層中,不同幀之間的信息交換被嚴格限制在這些寄存器之間。這就像是開會時,每幀圖像只派代表(寄存器)去溝通,而不是所有人亂哄哄地擠在一起。這種設計不僅形成了有效的信息瓶頸,強制寄存器提取高層幾何特征,還讓訓練時的內存消耗降低了約 70%。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    VGGT-Ω 架構概覽

    顯存優化的解碼頭

    傳統的密集預測頭(如 DPT)在處理高分辨率特征圖時會消耗巨大的顯存。VGGT-Ω 的替代方案:在分辨率高于 1/4 的層級,使用單個 MLP 配合像素打亂(Pixel Shuffle)操作進行上采樣。這種設計在不損失精度的情況下,極大地降低了前向激活值的存儲成本。

    此外,VGGT-Ω 簡化了多任務學習。它不再為點云和匹配特征設計獨立的密集解碼頭,而是在訓練時僅保留對應的損失函數(Loss)

    這意味著模型在“腦子里”學會了這些能力,但不需要在輸出端浪費顯存去顯式表達。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    全局注意力的稀疏性可視化

    4000 萬視頻中淘出的“金礦”

    數據是 Scaling 的燃料。研究團隊構建了一個嚴苛的自動化標注流水線,將互聯網上的海量視頻轉化為高質量的 3D 訓練素材。

    • VLM 預過濾:利用視覺語言模型(VLM)剔除掉 50% 的“垃圾視頻”(如剪輯、特效、無意義轉場)。
    • 動態掩碼提取:使用 Grounding DINO 識別行人、車輛等可能在運動狀態的物體,確保幾何校驗時避開這些區域。
    • 一致性校驗:通過多視圖幾何一致性檢查(重投影誤差等),僅保留那些能夠被精準重建的片段。

    最終,他們從 4000 萬個視頻中篩選出了 80 萬個高質量序列,其中約三分之一包含動態內容。結合現有的合成數據集,VGGT-Ω 擁有了高達 400 萬 個帶有精確 3D 標注的訓練序列,規模是前作的 15 倍以上。

    性能表現:動態重建的新標桿

    VGGT-Ω 的強大在動態場景中體現得淋漓盡致。在 Sintel 這種充滿劇烈運動的基準測試中,刷新了性能表現。

    定量評估:刷新多項紀錄

    在相機姿態估計方面,VGGT-Ω 在 Sintel 數據集上的 AUC@3° 指標從此前 SOTA 的 22.5 提升到了 40.0,相對提升高達 77%。在深度估計方面,AbsRel(平均絕對相對誤差)也大幅下降。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    相機姿態與深度估計定量對比
    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    深度估計定量對比

    定性對比:魯棒性提升

    面對重復紋理(如雪地)或劇烈的相機翻轉,此前的標桿模型如 Depth Anything 3 可能會出現嚴重的“重影”或軌跡丟失,而 VGGT-Ω 依然能保持全局幾何的一致性。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    定性重建結果
    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    與 MegaSaM 的對比
    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    與 Depth Anything 3 的對比

    在推理速度上,得益于 DINOv3 的 16-pixel patch size 和寄存器注意力機制,VGGT-Ω 在處理 1000 幀以上的長視頻時,速度和顯存表現均優于同類模型。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    推理速度與顯存對比

    深入洞察:模型內部發生了什么?

    除了精度提升,研究團隊還通過一系列有趣的實驗揭示了 10B 大模型的內在特性。

    寄存器的語義對齊

    VGGT-Ω 學到的“寄存器”特征不僅包含幾何信息,還具有語義通用性。研究人員將模型凍結,將其場景 Token 作為 視覺語言動作模型(Vision-Language-Action, VLA) 的額外輸入。在 LIBERO 機器人操作基準測試中,這一簡單的操作就讓平均成功率從 97.1% 提升到了 98.5%

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    LIBERO 機器人基準測試結果

    此外,通過對比學習,這些寄存器甚至可以與自然語言對齊,實現“用文字檢索 3D 場景”。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    語言對齊實驗

    “涌現”出的運動感知

    更有趣的是,即使沒有顯式的運動監督,模型內部的特征也能清晰地將移動的舞者與靜止的背景區分開來。這說明在學習“如何重建”的過程中,模型自發地理解了“什么是運動”。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    運動感知表征可視化

    數據質量的“坑”

    在構建 4M 數據集的過程中,團隊也總結了許多寶貴的教訓。例如,傳感器數據中常見的“前景泄露”、合成數據中的“薄結構失效”以及 SfM 優化中常見的“圓頂效應(Doming Effect)”。這些噪聲如果處理不好,會直接導致模型在特定場景下產生幻覺。

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%
    常見數據質量問題

    寫在最后

    VGGT-Ω 的成功再次證明了:在 AI 時代,規模化往往是通往魯棒性的最短路徑。通過將 3D 重建從一個復雜的優化問題轉變為一個可擴展的學習問題,VGGT-Ω 不僅刷新了多項精度紀錄,更為未來的具身智能和世界模型提供了一個強大的幾何底座。

    入群加好友(v:xiao-ma-baoli),請備注你感興趣的技術方向

    CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前饋 3D 重建邁入 10B 參數時代,動態場景精度升 77%

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 男人天堂一区| 国产成人精品微拍视频网址| 免费无码黄十八禁网站| 久久精品国产亚洲AⅤ无码剧情 | 好吊妞| 色色激情网| 人妻夜夜爽天天爽一区| 涩涩av| 国产午夜福利视频一区二区| 久久久久久久久久久国产| 被暴雨淋湿爆乳少妇正在播放 | 亚洲免费视频一区二区三区 | 久久男人av资源网站| 国产成人综合网亚洲第一| 亚洲男人的天堂AV手机在线观看| 日韩欧美1区2区3区免费看。 | 国产成人精品亚洲精品密奴| 国产精品任我爽爆在线播放| 国产最新AV在线播放不卡| 久久人人爽人人爽人人片av超碰| 忍着娇喘人妻被中出中文字幕| 国产成人免费ā片在线观看| 中国女人做爰A片| 中日av乱码一区二区三区乱码| 国产在线三级自拍视频| 成人精品视频一区二区在线| 精品少妇后入一区二区三区 | 日本无码中文| 亚洲 欧美 综合 在线 精品| 国产精品AV在线| 98精品全国免费观看视频| 国产日产精品_国产精品毛片| 亚洲成年av天堂动漫网站| 婷婷四虎东京热无码群交双飞视频 | 影音先锋大黄瓜视频| 欧美乱妇高清无乱码免费| 福利导航在线| 乱人伦精品视频在线观看| a级免费| 亚洲中文字幕久在线| 中文字幕亚洲资源网久久|