GAIR Paper 099：中科大&智象未來：強模型打底、輕模型精修，重塑視頻超分體驗丨CVPR 2026

本文作者：鄭佳美

2026-06-12 14:28

專題：CVPR 計算機視覺與模式識別會議

導語：PS-SR：兼顧速度、細節與穩定性，讓低清畫面更可信。

GAIR Paper 099：中科大&智象未來：強模型打底、輕模型精修，重塑視頻超分體驗丨CVPR 2026

PS-SR：兼顧速度、細節與穩定性，讓低清畫面更可信。

作者丨鄭佳美

編輯丨馬曉寧

在生成式 AI 進入視頻生產鏈之后，視頻增強正在從后期修補工具，變成內容生產、內容分發和機器視覺理解中的基礎能力。

現實需求已經不只是讓畫面變清楚，而是要在電商直播中看清商品質感，在工業巡檢中識別裂紋和儀表讀數，在遠程協作中保留設計細節，在文博數字化中盡量還原影像紋理。

隨著 4K 級高清內容逐漸成為視頻平臺、智能電視、大屏顯示和專業制作流程中的常見需求，低清素材如何被穩定放大到更高分辨率，同時保留紋理、邊緣和運動連續性，也成為視頻增強技術必須面對的問題。

難點在于，視頻增強不能只追求銳度。傳統單步模型速度快，但細節往往保守；多步擴散模型細節豐富，但推理成本高，難以大規模落地。更復雜的是，視頻不是單張圖片，每一幀清楚還不夠，幀與幀之間還要穩定，否則就會出現閃爍、跳動和細節漂移。

在這樣的背景下，中國科學技術大學與智象未來研究團隊提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。

這項研究沒有簡單地在單步和多步之間二選一，而是讓強大的 base model 先恢復整體結構，再讓輕量 draft model 補充細節，并通過頻域更新約束生成范圍，讓模型盡量增強紋理而不改寫主體內容。

它真正回應的問題是：當視頻增強進入大規模應用時，系統能不能既足夠快，又足夠穩，還能生成可信細節。PS-SR 探索的偽單步擴散路徑，為高質量視頻增強提供了一種更接近實際部署的方案，也為內容平臺、智能視覺系統和生成式視頻工具提供了新的技術參考。

項目地址：https://waq2001.github.io/PS-SR-page/

像單步一樣快，像多步一樣細

實驗結果方面，PS-SR 在畫質、速度、穩定性三方面較均衡，核心優勢是接近單步模型的速度，同時具備多步擴散模型級別的細節表現，主要提升體現在紋理更清楚、結構更穩定、幀間抖動更少，適用場景包括合成退化視頻和真實互聯網低質視頻

與其他方法相比，PS-SR 相比 STAR、SeedVR 速度明顯更快，相比 DLoRAL、SeedVR2、DOVE 細節更自然、結構偏移更少。

重建質量表現上，UDM10、SPMCS、YouHQ40 的整體重建指標靠前，結構一致性較強，低頻內容保留較好，輸入視頻主體信息變化較小，高質量輸出更接近真實高清視頻。雷峰網

真實視頻表現上，VideoLQ 是無高清參考的真實低質視頻，PS-SR 在人臉區域能讓五官邊緣更穩定、細節不過度扭曲。

時間一致性表現上，PS-SR 的幀間連續性優于對比方法，視頻閃爍減少，局部紋理跳動減少，運動區域更平滑，播放觀感更穩定，關鍵原因是基礎視頻擴散模型中的 motion prior 被保留。

主觀評價結果顯示，參與者更傾向選擇 PS-SR，偏好原因是清晰度、自然感、連續性綜合更好，視覺優勢不是單純銳化，而是結構保真 + 細節增強，用戶感知重點集中在人臉自然度、物體邊緣、視頻流暢度。

消融實驗結果顯示，去掉 VSD 后生成質量下降，畫面細節不夠豐富，去掉對抗損失后真實感下降，紋理表現變弱，去掉像素監督后局部區域還原能力下降，去掉頻域更新后細節可能更“銳”，但結構更容易偏移，完整 PS-SR 在細節、穩定性、輸入一致性之間更平衡。雷峰網(公眾號：雷峰網)

速度結果顯示，PS-SR 采用 1 次 base model 推理 + 3 次 draft model 細化，推理耗時接近單步方法，計算開銷明顯低于多步擴散方法，實用價值是更適合實際視頻增強部署。

參數分析結果顯示，采樣步數較少時結構保真更強，但細節不足。采樣步數較多時細節更豐富，但內容偏移風險增加，最終設置為 T = 4，細化強度較低時畫面穩定，但不夠清晰，細化強度較高時畫面更銳，但可能改變結構，最終設置為 α = 0.6，draft model 剪枝過少時速度提升有限，draft model 剪枝過多時細節生成能力不足，最終設置為剪掉 20 個 DiT block。

這些結果也解釋了 PS-SR 為什么采用“強模型打底，輕模型精修”的設計：它不是單純增加推理步驟來換取畫質，也不是為了速度壓縮到只剩一次生成，而是在結構恢復、細節補充和計算成本之間尋找平衡。下面進一步拆解研究團隊如何搭建和驗證這一流程。

強模型打底，輕模型精修

整體來看，研究的實驗目的包括驗證 PS-SR 的視頻超分能力，驗證“偽單步”框架的速度優勢，驗證多步細化帶來的細節提升，驗證頻域更新對結構穩定性的作用，驗證真實低質視頻中的泛化能力。

數據準備階段使用 YouHQ 高質量視頻片段作為訓練數據，通過 RealESRGAN 退化流程構造低質輸入，合成測試集包括 UDM10、SPMCS、YouHQ40，真實測試集為 VideoLQ，數據覆蓋人物、車輛、動物、街景、互聯網低質視頻。

輸入處理階段以低質量視頻作為輸入，通過 VAE encoder 編碼，進入 latent space 表示空間，目的在于降低視頻處理成本，便于擴散模型生成。

base model 階段的模型來源是 Wan2.1 視頻擴散基礎模型，微調方式為 LoRA，主要任務是一次性恢復全局結構，重點內容包括畫面布局、主體形狀、低頻語義信息，執行次數只執行 1 次，設計目的在于避免大模型多步推理造成高成本。

base model 訓練包括 latent space 訓練、VSD 約束、對抗訓練、pixel space 微調和 patch 訓練，其中 latent space 訓練用于學習低質視頻到高質視頻的整體映射，VSD 約束用于讓單步輸出接近多步擴散模型的質量分布，對抗訓練用于增強視覺真實感，pixel space 微調用于提升局部區域質量，patch 訓練通過隨機裁剪局部區域減少顯存壓力。

訓練目標是全局結構準確 + 局部細節清晰；draft model 階段的模型來源是 base model 的輕量剪枝版本，結構變化是移除部分 DiT block，主要任務是后續高頻細節補充，重點內容包括邊緣、紋理、局部清晰度，執行次數為多次輕量細化，設計目的在于用較小計算量模擬多步擴散的細節生成能力。

draft model 特征增強階段將 base model 特征傳遞給 draft model，融合方式為對應層特征拼接，后續處理通過 FC layer 恢復維度，作用是讓輕量模型獲得強模型的表達信息，好處是剪枝后仍保持細節生成能力。

draft model 訓練以中間 latent 狀態作為輸入，輸出細化方向，訓練損失為 L2 loss + pixel loss，不使用 VSD 以減少訓練復雜度，不使用對抗損失以避免過度追求分布對齊，訓練重點是高頻細節恢復。

頻域更新規則相當于給細節增強加了一道邊界。模型會先在像素空間中把畫面從 RGB 轉到 YUV，并重點處理亮度信息：上一輪結果中的整體結構和低頻內容被保留下來，當前 draft model 預測出的高頻紋理則被補充進去。

這樣做的好處是，模型不是重新改寫整幅畫面，而是在原有結構上增加細節，從而減少語義漂移，讓紋理更豐富，同時讓主體形狀保持穩定。

完整推理流程依次為低質視頻輸入、VAE 編碼、base model 單步恢復、draft model 第 1 次細化、頻域更新、draft model 第 2 次細化、頻域更新、draft model 第 3 次細化、頻域更新、VAE 解碼、高質量視頻輸出。

對比實驗設置包括多步擴散方法 STAR、SeedVR，單步擴散方法 DLoRAL、SeedVR2、DOVE，對比維度包括畫質、細節、結構一致性、時間穩定性、速度，對比方式包括量化指標 + 視覺案例 + 人工評價。

評價內容包括重建類指標用于判斷結構是否接近 GT，感知類指標用于判斷畫面是否自然、清晰，無參考指標用于判斷真實視頻中的視覺質量，時間一致性指標用于判斷幀間是否穩定，主觀評價用于判斷人眼觀看偏好。

分析實驗包括模塊消融、步數分析、剪枝分析、強度分析和長視頻討論，其中模塊消融分析 VSD、對抗損失、像素監督、頻域更新，步數分析不同 T 的效果，剪枝分析不同 draft model 規模，強度分析不同 α 的細節增強程度，長視頻討論重疊切片與融合策略。

從看清視頻，到看懂世界

總的來說，這項研究更重要的價值不只是提出一種視頻超分方法，而是回應了普通人日常觀看視頻時最直接的痛點，也就是低清、模糊、壓縮嚴重、細節丟失和播放不穩定。

偽單步框架的意義在于它并不是真正只做 1 步，而是讓視覺體驗和速度體驗接近單步，同時在內部保留輕量多步細化，大模型負責關鍵一步，小模型負責后續修補，從而降低計算量，并保留細節生成能力。

base model 的意義在于提供全局結構基礎，保證主體形狀不亂，保證語義內容不偏，保證低頻信息穩定，相當于先把整體輪廓建立準確。draft model 的意義在于以低成本補充細節，模擬多步擴散的細化過程，提升邊緣、紋理、局部清晰度，避免每一步都使用大模型，相當于在穩定輪廓上繼續補充紋理。

頻域更新的意義在于把結構和細節分開處理，低頻負責整體內容，高頻負責紋理細節，只更新高頻可以減少內容改寫，保留低頻可以增強輸入輸出一致性，關鍵價值是防止越修越偏。

對畫質提升來說，PS-SR 能讓細節增強更自然，人臉區域更可信，物體邊緣更清楚，背景紋理更豐富，畫面不容易假銳化，結果更接近真實高清視頻。對視頻穩定性來說，它提升的不只是單幀清晰度，還能減少幀間閃爍，讓運動變化更平滑，讓觀看體驗更舒服，這一點對真實視頻應用尤其重要。

從效率的角度來看，大模型只運行關鍵一步，輕量模型承擔重復細化，推理速度接近單步方法，計算成本遠低于完整多步擴散，更利于部署在視頻增強系統中。

實際應用上，這項研究可用于互聯網低清視頻增強、老視頻修復、短視頻平臺畫質提升、監控視頻清晰化、壓縮視頻修復和長視頻分段增強。

對后續研究來說，強模型 + 輕模型協作范式、頻域約束生成思路可以遷移到視頻去噪、去模糊、去壓縮偽影，也能啟發其他生成任務中的低成本多步細化，對實時高保真視頻生成具有參考價值。

總體來看，研究形成了一個面向視頻超分的效率質量折中方案，一個減少擴散模型推理成本的結構設計，一個控制語義漂移的頻域細化機制，以及一個更接近實際部署需求的視頻增強框架。

去哪看 CVPR 核心【演講/論文】詳解？

為了讓國內的研發者、創業者與投資人能夠毫無時差地掌握本屆 CVPR 2026 的完整干貨，雷峰網已全面上線【CVPR 2026 深度專區】。

專區不僅全面收錄了重磅論文的工程化解讀、專家前沿演講，更將持續更新前方記者的第一手會議動態。

掃描下方二維碼，或點擊「閱讀原文」關注專區。

GAIR Paper 099：中科大&智象未來：強模型打底、輕模型精修，重塑視頻超分體驗丨CVPR 2026

與全球 8000 名頂尖大腦同步呼吸，搶先透視具身智能的下一個五年！

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

專題

CVPR 計算機視覺與模式識別會議

本專題其他文章

鄭佳美

編輯

發私信

當月熱門文章

GAIR Paper 099：中科大&智象未來：強模型打底、輕模型精修，重塑視頻超分體驗丨CVPR 2026

像單步一樣快，像多步一樣細

強模型打底，輕模型精修

從看清視頻，到看懂世界

CVPR 計算機視覺與模式識別會議

GAIR Paper 099：中科大&智象未來：強模型打底、輕模型精修，重塑視頻超分體驗丨CVPR 2026

強模型打底，輕模型精修