CVPR2026 | 醫(yī)學(xué)分割不再只認(rèn)一個(gè)答案：新模型學(xué)會理解醫(yī)生分歧

本文作者：陳淑瑜

2026-06-02 18:04

導(dǎo)語：本文提出一個(gè)新的框架：Harmonizer Network，目標(biāo)是在多標(biāo)注者醫(yī)學(xué)分割中同時(shí)解決“設(shè)備/噪聲差異”和“醫(yī)生標(biāo)注風(fēng)格差異”。

來源：公眾號“智能CV”

原文鏈接：https://mp.weixin.qq.com/s/3Ffpo_6rwTspweLdk5RiWw?scene=1&click_id=37

CVPR2026 | 醫(yī)學(xué)分割不再只認(rèn)一個(gè)答案：新模型學(xué)會理解醫(yī)生分歧

論文：https://arxiv.org/pdf/2605.08210

代碼：https://github.com/sanazkarimi/harmonizer

一、研究方向及背景

這篇論文聚焦于多標(biāo)注者醫(yī)學(xué)圖像分割。在醫(yī)學(xué)影像中，不同醫(yī)生對同一病灶邊界的判斷常常并不完全一致，例如肺結(jié)節(jié)、鼻咽癌腫瘤區(qū)域等任務(wù)中，病灶邊界模糊、影像質(zhì)量差異、醫(yī)生經(jīng)驗(yàn)不同，都會導(dǎo)致標(biāo)注結(jié)果存在明顯差異。

傳統(tǒng)方法通常會把多個(gè)醫(yī)生的標(biāo)注通過多數(shù)投票、平均融合或 STAPLE 等方式合成為一個(gè)“共識標(biāo)簽”。但這類做法會壓縮掉專家之間真實(shí)存在的差異，使模型過度自信，無法表達(dá)臨床不確定性。近年來的概率分割方法，如 Probabilistic U-Net、D-Persona 等，開始嘗試建模多種可能的分割結(jié)果，但仍存在兩個(gè)問題：

掃描儀噪聲、成像偽影與真實(shí)標(biāo)注差異容易混在一起
，導(dǎo)致模型把設(shè)備噪聲誤認(rèn)為臨床不確定性。
個(gè)體醫(yī)生的標(biāo)注風(fēng)格建模不充分
，例如有的醫(yī)生邊界畫得更保守，有的醫(yī)生對紋理或邊緣更敏感。

因此，本文提出一個(gè)新的框架：Harmonizer Network，目標(biāo)是在多標(biāo)注者醫(yī)學(xué)分割中同時(shí)解決“設(shè)備/噪聲差異”和“醫(yī)生標(biāo)注風(fēng)格差異”。

二、研究方法或創(chuàng)新點(diǎn)

本文的整體框架如圖1所示。模型以 Probabilistic U-Net 為基礎(chǔ)，加入兩個(gè)關(guān)鍵模塊：Noise Harmonizer 和 Frequency-Prompt Personalization Module，并使用 GED 損失約束預(yù)測分布與真實(shí)多醫(yī)生標(biāo)注分布的一致性。

1. Noise Harmonizer：先消除成像噪聲帶來的干擾

圖1展示了 Harmonizer Network 的主干結(jié)構(gòu)。輸入醫(yī)學(xué)圖像經(jīng)過編碼器、潛變量空間和解碼器生成分割結(jié)果。在解碼器不同層中，作者插入了 Harmonizer 模塊，對特征進(jìn)行動態(tài)調(diào)制。

其核心思想是：
模型不應(yīng)把掃描儀差異、運(yùn)動偽影、強(qiáng)度漂移等成像問題誤認(rèn)為醫(yī)生之間的診斷差異。因此，作者設(shè)計(jì)了一個(gè)輕量級的 Noise Harmonizer，通過學(xué)習(xí)一組“偽影 token”，對不同層的特征生成調(diào)制參數(shù)：

其中，γl和βl用于對當(dāng)前層特征進(jìn)行縮放和平移。這樣模型可以在潛空間中獲得更加穩(wěn)定、去噪、跨掃描儀一致的表示。

這一模塊的作用可以概括為：
先把設(shè)備和采集噪聲壓下去，再讓模型去學(xué)習(xí)真正有臨床意義的標(biāo)注不確定性。

2. 頻率域個(gè)性化：用高頻信息建模醫(yī)生標(biāo)注風(fēng)格

本文第二個(gè)重要創(chuàng)新是 High-Frequency Prompt / Frequency-Prompt Personalization Module，結(jié)構(gòu)見圖2。

作者認(rèn)為，不同醫(yī)生的分割風(fēng)格往往體現(xiàn)在高頻細(xì)節(jié)上，例如：

邊界是否更銳利；
是否包含模糊邊緣區(qū)域；
對紋理變化是否敏感；
病灶外擴(kuò)或收縮的傾向。

因此，作者沒有只在普通空間特征上做個(gè)性化，而是使用 離散小波變換 DWT 將特征分解為低頻和高頻子帶：

X_{LL}：低頻結(jié)構(gòu)信息，主要表示整體形狀；
X_{LH}, X_{HL}, X_{HH}：高頻信息，主要表示邊緣、紋理和細(xì)節(jié)。

隨后模型通過 Rater-Aware Prompt Projection，RAPP 生成與具體標(biāo)注者相關(guān)的頻率提示，再通過注意力機(jī)制調(diào)制高頻特征。最后利用 IDWT 還原為完整特征，并生成醫(yī)生個(gè)性化的潛變量 z′。

簡單說，圖2說明了本文如何把“醫(yī)生風(fēng)格”轉(zhuǎn)化為頻率域提示，使模型能夠生成不同醫(yī)生風(fēng)格下的個(gè)性化分割結(jié)果。

3. GED 損失：讓模型學(xué)到“多種合理分割”

本文還使用 Generalized Energy Distance，GED 作為分布對齊損失。它衡量模型生成的多個(gè)預(yù)測分割與真實(shí)多個(gè)醫(yī)生標(biāo)注之間的分布距離。

GED 損失由兩部分組成：

讓模型生成的分割靠近真實(shí)專家標(biāo)注；
保持生成結(jié)果之間的多樣性，避免模型塌縮成單一共識分割。

因此，GED 的作用是讓模型做到：

專家一致的地方，模型也更確定；
專家分歧大的地方，模型保留多樣性和不確定性。

4. 兩階段訓(xùn)練策略

本文采用兩階段訓(xùn)練：

第一階段訓(xùn)練 Probabilistic U-Net 主干和 Noise Harmonizer，目標(biāo)是學(xué)習(xí)穩(wěn)定、去噪、跨設(shè)備一致的潛空間表示。

第二階段凍結(jié)主干和 Harmonizer，只訓(xùn)練頻率個(gè)性化模塊，使其學(xué)習(xí)不同醫(yī)生的標(biāo)注風(fēng)格。

這種設(shè)計(jì)避免了個(gè)性化模塊直接學(xué)習(xí)到設(shè)備噪聲，從而更好地區(qū)分“成像噪聲”和“醫(yī)生差異”。

三、實(shí)驗(yàn)結(jié)果

本文主要在兩個(gè)多標(biāo)注者醫(yī)學(xué)圖像分割數(shù)據(jù)集上驗(yàn)證方法：

LIDC-IDRI
：肺結(jié)節(jié) CT 分割數(shù)據(jù)集，最多包含 4 位放射科醫(yī)生標(biāo)注。
NPC-170
：鼻咽癌 MRI 分割數(shù)據(jù)集，包含 4 位放療專家對腫瘤區(qū)域的標(biāo)注。

1. 分布擬合與多樣性結(jié)果：表1

表1比較了 Probabilistic U-Net、D-Persona 和本文方法在 LIDC-IDRI 與 NPC-170 上的 GED、Soft Dice、Dice max、Dice match 等指標(biāo)。

在 LIDC-IDRI 上，當(dāng)采樣數(shù)為 50 時(shí)：

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑
Prob. U-Net	0.2168	88.80	88.87	88.81
D-Persona	0.1358	90.45	91.37	91.33
Harmonizer Network	0.1048	91.81	92.28	91.94

在 NPC-170 上，本文方法同樣取得最低 GED：

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑
Prob. U-Net	0.3528	81.19	84.19	80.13
D-Persona	0.1978	84.01	82.79	81.69
Harmonizer Network	0.1758	84.83	82.26	82.65

這說明本文方法能夠更好地?cái)M合真實(shí)多醫(yī)生標(biāo)注分布，生成的分割結(jié)果既有多樣性，又不會偏離合理解剖結(jié)構(gòu)。

2. 個(gè)性化分割結(jié)果：表2與表3

表2展示了 LIDC-IDRI 上的個(gè)性化分割結(jié)果。本文方法在平均個(gè)性化 Dice 上達(dá)到 90.78%，高于 D-Persona 的 89.17%。

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑	Dice mean ↑
D-Persona	0.1444	90.31	90.38	89.17	89.17
Harmonizer Network	0.1419	91.35	92.65	90.00	90.78

表3展示了 NPC-170 上的結(jié)果。本文方法的平均個(gè)性化 Dice 為 81.63%，優(yōu)于 D-Persona 的 80.40%。

方法	GED ↓	Dice soft ↑	Dice max ↑	Dice match ↑	Dice mean ↑
D-Persona	0.2970	82.30	81.60	80.50	80.40
Harmonizer Network	0.2685	83.10	84.46	81.63	81.63

這些結(jié)果表明，頻率域提示確實(shí)能更好捕捉不同醫(yī)生的邊界風(fēng)格，而不是簡單生成隨機(jī)多樣化結(jié)果。

3. 可視化結(jié)果：圖3

圖3展示了 LIDC-IDRI 和 NPC-170 上的多醫(yī)生標(biāo)注、模型預(yù)測和誤差圖。紅色邊界表示真實(shí)標(biāo)注，藍(lán)色邊界表示模型預(yù)測。

從圖3可以看出，本文方法在邊界模糊、醫(yī)生意見不一致的區(qū)域，能夠生成較合理的個(gè)性化輪廓；在醫(yī)生一致性較高的區(qū)域，預(yù)測邊界也更加穩(wěn)定。這說明模型的不確定性主要集中在真實(shí)存在爭議的區(qū)域，而不是隨機(jī)噪聲區(qū)域。

4. 魯棒性與補(bǔ)充實(shí)驗(yàn)

補(bǔ)充材料中還驗(yàn)證了方法在不同擾動下的魯棒性，包括高斯噪聲、模糊、亮度/對比度擾動等。表5顯示，在強(qiáng)高斯噪聲 σ=0.25下：

方法	DSC ↑	Dice 下降 ↓
Prob. U-Net	73.22	15.87
D-Persona	71.11	18.06
Harmonizer	84.27	6.53

這說明 Noise Harmonizer 對成像噪聲確實(shí)有抑制作用。

此外，圖10展示了頻率模塊前后的頻譜響應(yīng)。加入頻率適配器后，高頻響應(yīng)明顯增強(qiáng)，說明該模塊確實(shí)強(qiáng)化了邊界和紋理細(xì)節(jié)，有助于個(gè)性化分割。

四、總結(jié)

這篇論文提出的 Harmonizer Network 解決了多標(biāo)注者醫(yī)學(xué)圖像分割中的兩個(gè)關(guān)鍵問題：一是成像設(shè)備和噪聲導(dǎo)致的偽不確定性，二是醫(yī)生個(gè)體標(biāo)注風(fēng)格帶來的真實(shí)不確定性。

其核心貢獻(xiàn)可以概括為三點(diǎn)：

第一，提出 Noise Harmonizer，通過動態(tài)特征調(diào)制抑制掃描儀和采集噪聲，使?jié)摽臻g更加穩(wěn)定，避免模型把噪聲誤認(rèn)為臨床差異。

第二，提出 頻率域個(gè)性化提示模塊，利用小波變換提取高頻邊界與紋理信息，從而更細(xì)致地建模不同醫(yī)生的標(biāo)注習(xí)慣。

第三，引入 GED 分布約束，讓模型預(yù)測分布與真實(shí)多醫(yī)生標(biāo)注分布對齊，在專家一致區(qū)域保持確定性，在專家分歧區(qū)域保留多樣性。

整體來看，本文方法不僅提升了分割精度，也增強(qiáng)了醫(yī)學(xué)分割模型的可解釋性和臨床可信度。它的意義不只是“分得更準(zhǔn)”，而是讓模型能夠回答一個(gè)更臨床化的問題：不同醫(yī)生為什么會分得不一樣，模型又該如何合理表達(dá)這種不確定性。

0人收藏

相關(guān)文章

陳淑瑜

編輯

發(fā)私信

當(dāng)月熱門文章