0
| 本文作者: 陳淑瑜 | 2026-05-29 11:16 | 專題:CVPR 計算機視覺與模式識別會議 |
來源:公眾號“ICGS實驗室”
原文鏈接:https://mp.weixin.qq.com/s/kDssjQmcJYnAJnG1THufKQ?scene=1&click_id=40
基本信息

題目:SAGE: Style-Adaptive Generalization for Privacy-Constrained Semantic Segmentation Across Domains
會議:IEEE Conference on Computer Vision and Pattern Recognition (CCF-A,計算機視覺頂會)
年份:2026年
主要單位:清華大學深圳國際研究生院、中山大學、國家超級計算深圳中心
主要作者:李慶美(清華大學深圳國際研究生院博士后)、張洋(中山大學22級本科生)、張配灃(中山大學23級本科生)
通訊作者:付昊桓、鄭玨鵬
Part.1
研究背景


語義分割是計算機視覺中的基礎任務,廣泛應用于自動駕駛、智慧城市和醫學影像等場景,但真實部署中的圖像往往來自不同城市、天氣、光照或成像設備,源域和目標域之間存在明顯分布差異,導致模型在未知場景中性能下降?,F有領域泛化語義分割方法通常依賴模型微調或內部特征調整,而在許多實際應用中,模型會因為隱私保護、知識產權或部署安全而被凍結,外部用戶無法訪問模型參數和結構。因此,本文關注一個更貼近真實部署的問題:當模型內部不可訪問時,如何提升凍結語義分割模型的跨域泛化能力。
Part.2
核心貢獻點


為了解決隱私約束下模型參數不可訪問、未知目標域風格高度多樣的問題,本文提出了 SAGE 框架,這是一種面向凍結語義分割模型的風格自適應泛化方法。SAGE 不修改模型內部參數,而是從輸入層生成視覺提示,引導模型適應不同目標域風格,包含兩大核心創新:
風格提示生成 (Style-Prompt Generation): SAGE 摒棄了單一固定提示的設計,首先通過風格遷移構造多種源域風格變體,并為每一種風格訓練一個專門的 style-prompt generator。該生成器由可學習邊界提示模板和輕量調制網絡組成,能夠根據輸入圖像內容動態生成視覺提示。邊界式設計既能注入風格先驗,又盡量避免干擾圖像主體區域,從而在不訪問模型內部參數的情況下提升凍結模型的泛化能力。
自適應提示融合 (Adaptive Prompt Fusion): 擁有了多種風格提示后,如何為未知目標圖像選擇合適提示是關鍵。SAGE 將多個 style-prompt generator 產生的提示送入輕量級注意力融合模塊,以輸入圖像特征作為查詢,自適應計算不同風格提示的重要性,并生成最終融合提示。這樣,每張目標圖像都能獲得與自身視覺風格更匹配的 prompt,避免固定提示在復雜目標域中失效,實現隱私約束下更穩健的跨域語義分割。
Part.3
實驗結果


本文在 GTAV、SYNTHIA、Cityscapes、BDD-100K 和 Mapillary 五個語義分割基準數據集上進行了評估,覆蓋 GTAV、Cityscapes 和 SYNTHIA 作為源域的三組跨域設置。實驗采用 ADE20K 預訓練的 SegFormer-B5 作為隱私語義分割模型,并保持模型主體凍結。結果表明,SAGE 在隱私約束方法中取得穩定領先的性能:在 GTAV 作為源域時,平均 mIoU 達到 42.09%;在 Cityscapes 作為源域時,平均 mIoU 達到 43.90%;在 SYNTHIA 作為源域時,平均 mIoU 達到 37.58%。相比直接使用凍結模型的 baseline,SAGE 帶來約 3.4 到 6.3 個百分點的平均精度提升;相比已有隱私兼容方法 A2XP,平均提升約 10.2 到 12.9 個百分點。


消融實驗和可視化結果進一步表明,SAGE 能夠減少目標域分割噪聲,保留更完整的目標邊界,并更好地識別交通標志等細粒度目標。
SAGE 為隱私約束下的跨域語義分割提供了一種輕量、高效且易部署的解決方案。該方法無需訪問模型內部參數,也不需要修改凍結骨干網絡,僅通過輸入級風格提示和自適應融合機制,就能顯著提升凍結模型在未知域上的泛化能力,為視覺模型在隱私保護和安全部署場景中的應用提供了新的思路。
本專題其他文章