0
| 本文作者: 陳淑瑜 | 2026-05-27 18:08 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:微軟亞洲研究院
原文鏈接:https://mp.weixin.qq.com/s/GECHPc8h_mblnXirldVaRg?scene=1&click_id=96


CoD:面向圖像壓縮的擴散基礎模型
基于一維隱表示的生成式視頻壓縮
HiSpatial:增強視覺-語言大模型的層級3D空間認知能力
面向3D生成的原生緊湊結構化隱表示(Oral, Award Candidate)
面向擴散Transformer 模型的區域自適應采樣
基于參考引導深度壓縮VAE的可流式傳輸實時說話人像視頻生成(Highlight)
語義主導:借助異步隱擴散融合語義與紋理建模
CoD:面向圖像壓縮的擴散基礎模型

論文鏈接:
https://arxiv.org/abs/2511.18706
現有的擴散編解碼器大多基于 Stable Diffusion 等文本到圖像的基礎模型,但從壓縮角度看,文本條件并不理想,尤其在極低碼率下會阻礙下游擴散編解碼器的潛力。為此,研究員們引入了首個面向壓縮的擴散基礎模型 CoD。該模型從頭開始訓練,實現壓縮與生成的端到端聯合優化。CoD 并非固定編解碼器,而是適用于各類擴散編解碼器的通用基礎模型。
CoD 采用原生圖像編碼器將圖像壓縮為緊湊表示,通過信息瓶頸強制極低碼率,再由擴散模塊在條件引導下重建像素。訓練方面,CoD將整流流損失與失真優化統一訓練,并以完全自監督的方式僅在公開圖像數據集上學習。

圖1:CoD基礎模型概述
CoD 具備多重優勢:在下游任務中替換 Stable Diffusion 可達到 SOTA,尤其在0.0039 bpp極低碼率下表現突出;訓練成本極低,僅需約20 A100 GPU 天,訓練速度提升約300 倍且完全可復現。研究發現,CoD的像素空間擴散可實現VTM 級別 PSNR 與高感知質量,并能夠以更少參數超越 GAN 類編解碼器。
基于一維隱表示的生成式視頻壓縮

論文鏈接:
https://arxiv.org/abs/2603.15302
傳統視頻編解碼器與現有神經視頻壓縮方法,在處理高保真內容時難以兼顧低碼率與優質感知質量。尤其是生成式視頻編解碼器(GVC)普遍采用的二維潛在表示,存在空間冗余高、長時語義建模能力不足等問題。
為此,研究員們提出了基于一維潛在表示的生成式視頻壓縮方法GVC1D。該方法利用視覺Transformer將視頻編碼為極緊湊的一維潛在標記,打破二維網格的剛性空間對應關系,有效減少幀內冗余并實現 token 數量的自適應縮減。同時,研究員們設計了一維記憶模塊,利用少量語義豐富的一維標記遞歸更新記憶狀態,既能保持低計算成本,還可以提供連貫長時上下文,進一步降低幀間冗余。

圖2:GVC1D框架概述。xt 首先被分割為圖像塊,然后輸入由局部和全局Transformer組成的編碼器,生成 yt。熵模型對 yt進行自回歸熵編碼。所有過程均由一個結合了長期一維記憶和短期上下文緩沖區的上下文模型進行引導,以提供全面的時序上下文。
實驗表明,GVC1D 在多個基準上均取得優異性能,顯著超越傳統編解碼器與最新神經視頻壓縮方法。在 HEVC Class B 數據集上,相較此前最優感知編解碼器,GVC1D在 LPIPS 指標上節省了 60.4% 比特率,在 DISTS 指標上節省了 68.8% 比特率。同時,GVC1D 在 PSNR、MS-SSIM 等客觀指標上表現突出,視覺質量與時間一致性均優于現有方案,充分驗證了一維潛在表示用于視頻壓縮的有效性與優越性。

視覺語言模型(VLM)在二維視覺語言任務上已取得顯著進展,但從二維感知擴展到三維空間理解仍面臨重大挑戰。現有方法在三維空間理解任務上仍然缺乏系統性的分層任務設計,且領域內缺少大規模、多樣化的三維標注數據集用于全面提升VLM的空間理解能力。
為此,研究員們提出了一種分層三維空間理解框架HiSpatial,將三維空間理解劃分為四個遞進層次,從底層的幾何感知到高層的抽象推理;并且根據這一分層構建了自動化數據生成流程,利用約500萬張真實場景圖像和超過4500萬個關注物體,合成了涵蓋多樣場景與任務的海量三維空間視覺問答對,用于VLM的有監督微調。在此基礎上,研究員們又設計了結合度量尺度三維點云圖輸入的HiSpatial VLM,來進一步增強模型的空間推理準確性。
圖3:方法概述。左側:數據構建流程,該流程可從真實場景圖像或帶有3D標注的現有數據中生成空間理解相關的問答對。右側:分層空間理解任務分類體系及代表性問答對。
實驗表明,HiSpatial-3B VLM在多個空間理解與推理基準上達到 SOTA 性能,超越已有的專用空間理解模型與 Gemini-2.5-pro、GPT-5 等閉源模型。研究同時揭示了空間理解層級任務間的明確依賴關系,驗證了引入低層級任務可持續提升高層推理能力,為未來高效構建三維空間智能模型提供了新的策略。

https://cvpr.thecvf.com/virtual/2026/poster/37074
3D生成建模在提升真實感方面進展顯著,但現有表征難以同時捕捉復雜拓撲與精細外觀,且缺乏高效的原生3D潛空間。為解決這一難題,微軟亞洲研究院的研究員們引入了名為O-Voxel的面向 3D 資產的原生稀疏體素表征,可穩健建模任意拓撲結構并編碼完整 PBR 材質參數。
基于該表征,團隊設計了稀疏壓縮變分自編碼器(SC-VAE),通過殘差自編碼結構實現了最高 16 倍空間壓縮,將高分辨率資產轉化為緊湊的結構化潛變量。利用這些潛變量,研究員們訓練了參數量約40 億的大規模流匹配模型,實現了原生 3D 資產生成。

圖4:O-Voxel示意圖及其與3D資源之間的即時雙向轉換。
實驗結果表明,該方法在幾何與材質質量上遠超現有模型,推理效率極高,在單張H100 GPU 上僅需約3 秒即可生成分辨率 512 的 3D 資產。O-Voxel 與 SC-VAE 的組合突破了傳統方法在拓撲表達與計算效率上的瓶頸,為構建高質量、高效率的原生 3D 生成系統提供了通用解決方案。

論文鏈接:
https://arxiv.org/abs/2502.10389
擴散模型雖已成為跨領域生成任務的主流方案,但依賴多次順序前向傳播的特性嚴重限制了實時性能。以往加速方法多聚焦減少采樣步數或重用中間結果,受限于卷積 U-Net 結構,未能利用圖像內部空間區域的差異。
借助擴散變換器(DiTs)處理可變數量 token 的靈活性,研究員們提出無需訓練的新型采樣策略 RAS(區域自適應采樣),根據 DiT 的關注區域動態為不同圖像區域分配不同采樣比例。其核心發現是,在每一步采樣中模型都會聚焦語義關鍵區域,且關注區域在連續步驟間具有強連續性。基于此,RAS 僅更新當前關注區域,其余區域直接復用前一步緩存的噪聲,關注點由前一步輸出確定,充分利用時序一致性。

圖5:與RAS中的其他區域相比,主體及細節更豐富的區域經過了更多的處理步驟。每個方塊代表一個分塊化的潛在token。
在Stable Diffusion 3和Lumina-Next-T2I上評估RAS,分別實現了最高2.36倍和2.51倍的加速,且生成質量下降極小。此外,用戶研究表明,在人類評估下,該方法在保持同樣質量的同時實現了1.6倍加速。RAS通過動態調整不同區域的采樣比例,有效提高了計算資源的利用效率,大幅降低了計算開銷,為擴散變換器提供了更高效的解決方案,顯著增強了其在實時應用中的落地潛力。

論文鏈接:
https://cvpr.thecvf.com/virtual/2026/poster/36995
視頻擴散模型雖然顯著提升了肖像視頻生成的質量,但高昂的計算成本嚴重限制其在實時交互場景中的落地應用。為解決這一難題,研究員們提出了一種支持流式傳輸的說話人肖像視頻生成框架,實現高保真、低延遲的音頻驅動視頻合成。
該框架核心包含兩部分:一是提出參考引導的因果視頻 VAE,融合單張或多張參考圖像特征,使網絡專注動態信息提取而非靜態外觀,將視頻壓縮率提升至768 倍;二是構建基于Rectified Flow Transformer的自回歸潛在去噪模型,采用塊狀因果注意力與 KV 緩存技術,支持視頻潛在表示的流式生成。

圖6:框架概述。左側:所提出的參考引導式因果視頻VAE。右側:采用塊級因果注意機制的 Rectified Flow Transformer,用于建模緊湊視頻潛在向量的概率分布。
實驗結果顯示,該方法能夠在單張 H100 GPU 上以 42 FPS 的速度實時生成 512 分辨率視頻,較現有基線模型提升25倍以上,且在嘴型同步、語音與頭部姿態一致性等指標上達到當前領先水平,并在視頻真實感、生動度及整體生成質量等方面表現優異。

論文鏈接:
https://arxiv.org/abs/2512.04926
潛在擴散模型(LDMs)遵循從粗到細的生成過程,高層語義結構的生成略早于細粒度紋理,但現有方法仍同步去噪語義與VAE編碼的紋理,忽視了這種時序順序。
為解決這一挑戰,研究員們引入了一種名為語義優先擴散(SFD)的潛在擴散范式,顯式優先構建語義表征。該方法通過專用語義VAE從預訓練視覺編碼器提取緊湊語義潛在變量,并將其與紋理潛在變量組合成復合潛在表示。其核心在于采用獨立的噪聲調度策略,異步對語義與紋理潛在變量進行去噪,使語義部分在時間上領先于紋理部分,為紋理精煉提供更清晰的高層指導,實現自然的從粗到細生成。
SFD 分為三個階段:第一階段語義初始化,語義潛變量率先進行去噪;第二階段異步生成,語義和紋理共同進行去噪但不同步,語義領先于紋理;第三階段紋理完成,僅紋理繼續進行精煉。去噪完成后,生成的語義潛變量 s1 被丟棄,最終圖像僅從紋理潛變量 z1 解碼獲得。
圖7:(a) 語義優先擴散SFD概述。語義(虛線)和紋理(實線)遵循異步去噪軌跡。(b) 在無引導的 ImageNet 256×256 數據集上的訓練收斂情況。SFD 的收斂速度顯著快于 DiT-XL/2 和 LightningDiT-XL/1,分別快約 100 倍和 33.3 倍。在ImageNet 256×256有引導生成任務中,SFD實現了FID 1.06(LightningDiT-XL)和FID 1.04(1.0B LightningDiT-XXL)的優異性能,收斂速度比原始DiT最高提升100倍。此外,SFD還能改進ReDi、VA-VAE等現有方法,充分驗證了異步語義主導建模的有效性。
本專題其他文章