CVPR 2026｜華中科技大學CCIIP實驗室5篇論文被CVPR 2026全文錄用！

本文作者：陳淑瑜

2026-05-28 17:56

專題：CVPR 計算機視覺與模式識別會議

導語：近日，計算機視覺領域的頂級國際會議CVPR 2026論文錄用結果揭曉，華中科技大學認知計算與智能信息處理實驗室共有5篇論文被錄用

來源：公眾號“華科大認知計算與智能信息處理”

原文鏈接：https://mp.weixin.qq.com/s/gIQoSDa_lkTbK0rt88PCmg?scene=1&click_id=179

近日，計算機視覺領域的頂級國際會議CVPR 2026論文錄用結果揭曉，華中科技大學認知計算與智能信息處理實驗室共有5篇論文被錄用。

論文介紹

論文標題：CoRiM: Conflict-driven Risk Minimization for Dynamic Multimodal Fusion

論文作者：Shihao Zou(24級博), Wei Wei*（導師）

內容介紹：

現有動態多模態融合方法在處理模態沖突與數據質量不一致問題缺乏有效理論支撐。近期理論研究雖將模態權重與損失、置信度等指標相關聯，但上述范式對于概率分布不一致等問題目前仍無法有效解決。因此，提出一種沖突風險最小化（CoRiM）的動態融合范式，其主要思想是將動態融合范式重定義為單樣本直接風險最小化任務。具體來說，我們首先定義了一個可微的模態沖突風險（MCR）函數（R(w)），主要用于對模態融合中的不確定性以及模態間一致性建模來量化風險。其次，通過研究發現，最小化R(w)本質上是一個定義在概率單純形（probabilistic simplex）上的非凸約束優化問題。因此，考慮引入無需投影的Frank-Wolfe（FW）算法，其能夠有效契合單純形上的優化任務，同時理論上也證明了所設計的R(w)函數具有L-光滑性，其保證了在FW算法在非凸目標上的收斂性。通過在多個基準數據集上的實驗表明，所提模型在高沖突和噪聲環境下相較于已有最優方法均取得了更優的性能表現。

CVPR 2026｜華中科技大學CCIIP實驗室5篇論文被CVPR 2026全文錄用！

圖1：CoRiM模型框架圖

論文標題：Debiased Sample Selection for Learning with Noisy Labels

論文作者：Weiran Pan(23級博), Wei Wei*（導師）, Wenfeng Xie

內容介紹：

現有噪聲標簽學習方法主要依賴小損失（small-loss）假設，即低損失樣本對應標注更可能是正確的。然而，該假設忽略了兩種存在的確認偏差：（1）類別級確認偏差：易學習類別的樣本損失較低，導致簡單樣本被過度選擇而忽略對困難樣本的學習；（2）實例級確認偏差：低損失樣本可能是錯誤標注導致其被錯誤地視為干凈樣本，以至模型強行擬合錯誤標簽。因此，分別提出了邊際分布調整（MDA）和候選類別選擇（CCS）兩種即插即用方法。MDA方法旨在通過動態調整模型預測的類別分布趨向均勻，以確?？珙悇e樣本選擇的公平性；CCS方法主要通過動態識別訓練過程中潛在的正確標簽，將其從分類任務中移除，以防止模型強制性抑制正確標簽，同時將弱相關標簽轉化為有用的監督信號。通過在CIFAR-10/100合成噪聲數據集以及真實世界噪聲數據集（CIFAR-N、Clothing1M、WebVision）上實驗表明，在現有樣本選擇器或先進LNL流程中集成上述兩種所提即插即用方法（MDA/CCS）均取得有效性能提升，體現了所提方法在噪聲標簽學習方法中的普遍適用性。

圖2：候選類別選擇（CCS）方法示意圖

論文標題：Text-Anchored Guided Optimization for Robust Fine-tuning Vision-Language Models under Label Noise

論文作者：Tengfei Ma(24級碩), Weiran Pan(23級博), Wei Wei*（導師）

內容介紹：

針對多模態大模型（如視覺- 語言模型，VLMs）微調對特定任務性能提升具有重要作用，但真實世界數據集中普遍存在標簽噪聲問題，導致其微調性能受限。傳統帶噪標簽學習方法通常依賴自引用驗證(即利用模型自身預測結果糾正錯誤)，而近期研究則利用跨模態信息輔助噪聲檢測，區別于上述方法，我們探索了一條不同的技術路徑：不僅將文本模態用于噪聲樣本識別，更將其作為一種獨立于訓練數據潛在錯誤標注之外的“真實標簽來源”。因此，提出了一種文本錨定引導優化（TANGO）框架，其以 “語義錨點”（一組由不同文本描述生成的靜態干凈的參考點）為核心重構了帶噪標簽學習兩個關鍵點：（1）基于無參數化文本錨定分類器替代傳統線性分類器，以利用干凈錨點生成直接帶權監督信號；（2）引入基于錨點引導的細化機制，主要利用每個樣本的錨點標簽信號驗證給定樣本標簽，以用于樣本選擇及標簽修正，以防止錯誤標簽/信號導致的模型性能下降。通過大量實驗表明，所提方法較已有最優方法取得了更佳性能。

圖3 語義錨點概念圖

論文標題：RDF-MIG: A Robust Diffusion Framework for Masked Image Generation to Augment Semantic Segmentation and Change Detection

論文作者：Zian Cao(24級博), Wei Wei*（導師）, Qingshan Gao, Yuanyuan Fu

內容介紹：

變化檢測與語義分割是遙感衛星圖像分析的關鍵技術之一，但高質量標注數據的獲取成本通常較高，導致高質量標主數據稀缺。目前已有研究重點關注如何利用生成模型來緩解數據稀缺問題，但仍缺乏統一的生成框架能夠同時應用于上述兩類任務，且現有方法大多無法直接生成多光譜圖像，導致其模型泛化性較弱。針對上述問題，提出了一種魯棒性擴散模型框架（RDFMIG）用于掩碼圖像生成，其主要通過聯合生成時相圖像-變化掩碼對以及單時相圖像-語義分割掩碼對以擴充訓練數據集，從而有效增強下游任務（如變化檢測和語義分割）的性能。此外，為提升生成圖像-掩碼對的質量，進一步提出了一種最大熵擴散損失函數用于對擴散模型的訓練目標進行重構；以及設計了一種MSE一致性校準方法用于提升擴散模型魯棒性，其主要通過解析方法使小誤差梯度與MSE目標保持一致，從而能夠直接復用現有擴散模型的成熟訓練參數，而不需要額外進行調參。大量實驗表明所提出的RDF-MIG方法能夠有效生成多光譜圖像-掩模對以顯著提升下游任務性能，同時所提的MCRD損失函數能夠進一步提升合成數據質量。

圖4：RDF-MIG框架圖

論文標題：VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

論文作者：Xinyao Liao(23級碩), Qiyuan He, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei（導師）, Angela Yao

內容介紹：

目前，自回歸（AR）視覺生成方法主要依賴于分詞器（tokenizer）在圖像和離散序列之間進行映射。然而，分詞器訓練目標與AR生成器之間存在天然的目標不一致性，即前者主要用于從真實token 重建清晰圖像，而后者則僅針對 token 似然進行優化，因此上述目標不一致性導致生成的 token 序列在缺乏像素空間直接監督條件下，極易解碼出低質圖像。因此，提出了一種輕量級后訓練框架（VA-π），其主要利用像素空間目標來直接優化 AR 模型。具體來說，VA-π 將生成器-分詞器的對齊形式化為變分優化問題，通過推導出證據下界（ELBO），以實現像素重建與自回歸建模的統一。同時為了保證在離散token 空間下進行優化，VA-π 還引入了基于強化學習對齊策略，即將 AR 生成器視為策略，并將像素空間的重建質量作為其內在獎勵，該獎勵通過在“教師強制（teacher forcing）”條件下預測的 token 序列重建原始圖像的程度來衡量，從而為模型提供直接的像素級指導，且無需代價高昂的自由生成采樣（free-running sampling）。同時，ELBO 的正則化項作為天然的正則化器，能夠有效保持 token 的分布一致性，且VA-π 能夠實現已有 AR 生成器的快速適配，無需重新訓練分詞器或依賴額外的外部獎勵模型。通過大量實驗表明，在僅使用 1% ImageNet-1K 訓練數據且微調時長僅 25 分鐘條件下，VA-π在 LlamaGen-XXL 模型上實現了 FID 從 14.36->7.65，IS 從86.55->116.70的顯著性性能提升。同時，進一步在GenEval文本到圖像生成基準上的實驗表明，所提方法不僅提升了純視覺生成模型（LlamaGen， 0.306->0.339）性能，還有效提升了統一多模態模型（Janus-Pro，0.725->0.744）的生成質量，體現其卓越性能。