• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    本文作者: 陳淑瑜   2026-05-28 18:05 專題:CVPR 計算機視覺與模式識別會議
    導語:對于超聲這類高度依賴專業知識和細粒度屬性判斷的醫學影像任務,將領域知識、診斷結構和語義關系顯式融入預訓練過程,是提升模型臨床理解能力的重要方向。

    來源:公眾號“GEM Group”

    原文鏈接https://mp.weixin.qq.com/s/F8NXE_UPXfEsz_lCY4qNAQ?scene=1&click_id=184


    IMCL實驗室文獻分享會

    在本期 Journal Club 中,黃強同學分享了 CVPR 2026 論文 Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding。該工作面向超聲圖像-文本理解任務,提出了一種語義感知的對比預訓練框架,嘗試將超聲診斷知識和結構化醫學語義引入視覺-語言模型訓練中。

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告
    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    Part.1

    研究背景

    近年來,CLIP 及其醫學版本已經在圖像-文本理解任務中取得了較好的效果。然而,直接將通用 CLIP 或泛醫學 CLIP 應用于超聲圖像理解,仍然面臨明顯挑戰。

    首先是 數據缺口。現有醫學跨模態數據集大多集中在 CT、MRI、病理圖像或通用放射影像,超聲圖像在其中占比很低。雖然超聲在臨床中使用非常廣泛,但在醫學視覺-語言預訓練中,超聲圖文數據仍然相對不足。

    其次是 語義歧義。自然圖像中的文本描述通常較為直觀,例如 “a dog” 或 “a car”。但超聲報告往往包含大量專業醫學屬性,例如“低回聲結節”“邊界清楚”“后方回聲增強”“少量周邊血流”等。同一個病灶可能存在多種表達方式,不同樣本之間也可能共享部分醫學語義。

    傳統 CLIP 通常將一對圖文視為正樣本,將 batch 中其他樣本全部視為負樣本。但在超聲場景下,這種二值化正負樣本劃分過于粗糙。兩個樣本雖然不是同一個病例,卻可能在器官、病灶形態或回聲特征上高度相似。

    第三是 結構先驗缺失。醫生進行超聲診斷時,并不是孤立地看某個關鍵詞,而是綜合器官位置、病灶形態、邊界、回聲、血流等多個屬性進行判斷。標準 CLIP 只是把文本編碼成一個整體向量,并沒有顯式建模“診斷—屬性”之間的臨床關系。

    因此,論文認為:要讓模型真正理解超聲圖文關系,僅僅進行圖像和文本的表層匹配是不夠的,還需要引入超聲領域知識和結構化診斷語義


    Part.2

    研究方法

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    論文首先提出了一個超聲診斷知識框架 UDT(Ultrasonographic Diagnostic Taxonomy)。UDT 可以理解為一個面向超聲診斷的結構化知識框架,由兩個部分組成:UHAT 和 UDAF。

    UHAT(Ultrasonographic Hierarchical Anatomical Taxonomy) 用于統一超聲解剖結構層級。論文將超聲數據組織到 9 大身體系統和 52 個器官中,形成從身體系統到器官的層級結構,從而減少不同數據源之間解剖標簽不一致的問題。

    UDAF(Ultrasonographic Diagnostic Attribute Framework) 則用于拆解超聲報告中的診斷屬性。作者將超聲報告整理為 9 個診斷維度,包括身體系統、器官、診斷、形狀、邊界、回聲、內部特征、后方聲學現象和血流信號。

    例如,一個病灶可以被描述為:某個器官上的低回聲病灶,邊界清楚,后方回聲增強,并伴有少量周邊血流。這些屬性并不是孤立信息,而是共同構成臨床診斷依據。

    因此,UDT 的核心作用是:將原本自由文本形式的超聲報告,轉化為結構化、可學習的醫學語義標簽。

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    例如,樣本 A 和 B 可能都屬于低回聲結節,但來自不同器官;樣本 A 和 C 可能來自同一器官,但病灶不同;樣本 A 和 D 可能完全不同。傳統 CLIP 會把 B、C、D 都視為 A 的負樣本,但 Ultrasound-CLIP 會根據它們在診斷屬性上的相似程度,給予不同的語義相似度。

    這樣,模型不再簡單地認為非配對樣本都是完全負樣本,而是能夠學習“部分相似”和“完全不相似”之間的差別。

    第二個設計是 異質圖編碼器。作者將每個樣本的 UDAF 標簽組織成一個 lesion-attribute graph。圖中包括診斷節點和屬性節點,并在診斷節點與屬性節點之間建立連接。

    例如,一個樣本可能包含 diagnosis、organ、shape、margin、echogenicity、posterior acoustic phenomenon 和 vascularity 等標簽。普通文本編碼器會將這些標簽當作一段文本處理,而 Ultrasound-CLIP 將這些標簽組織成圖結構,再通過異質圖神經網絡建模診斷屬性之間的關系。

    隨后,圖表示通過 cross-attention 融入文本 embedding 中,使文本編碼器不只是理解一句話,而是理解一個帶有醫學結構關系的診斷圖譜。

    在訓練目標上,Ultrasound-CLIP 同時使用標準 CLIP 損失和語義損失。標準 CLIP 損失負責基礎的圖像-文本對齊;語義損失則讓模型預測的圖文相似度矩陣接近 UDAF 構建的語義先驗矩陣。

    也就是說,模型不僅要學會哪張圖對應哪段文本,還要學會哪些樣本在超聲診斷語義上更加相似。

    Part.3

    實驗結果

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    實驗部分主要驗證三個問題:第一,Ultrasound-CLIP 是否優于現有 CLIP 和醫學 CLIP 模型;第二,語義軟標簽和異質圖編碼器是否有效;第三,預訓練得到的表示是否能夠遷移到下游超聲任務。

    在 US-365K 上,作者首先進行了多任務分類實驗。分類任務對應 UDAF 的 9 個診斷維度,包括身體系統、器官、診斷、形狀、邊界、回聲、內部特征、后方聲學現象和血流信號。

    結果顯示,Ultrasound-CLIP 的平均分類準確率達到 59.61%。在關鍵臨床屬性上,例如病灶邊界和診斷類別,準確率分別達到 84.44% 和 64.05%。這說明模型不只是學習到了粗粒度類別,而是在細粒度超聲診斷屬性上也具有較好的識別能力。

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    在圖文檢索任務中,Ultrasound-CLIP 在 Image-to-Text 和 Text-to-Image 兩個方向上均優于通用 CLIP 和醫學 CLIP 基線,說明模型學習到了更有效的超聲圖文共享表示空間。

    消融實驗進一步證明了兩個核心模塊的作用。去掉語義損失或去掉圖編碼器后,模型性能都會下降;完整模型效果最好。這說明語義軟標簽和異質圖編碼器是互補的:前者緩解了傳統 CLIP 的硬負樣本問題,后者增強了模型對診斷屬性關系的建模能力。

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    此外,作者還在多個公開下游超聲數據集上進行了 zero-shot、linear probe 和 full fine-tuning 測試。結果表明,Ultrasound-CLIP 在不同設置下均具有較好的遷移能力,說明在 US-365K 上學到的表示可以泛化到其他超聲臨床場景。

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告


    論文還通過可視化分析展示了異質圖編碼器的作用。在沒有 graph encoder 時,不同診斷類別的文本 embedding 混雜在一起;加入 UDAF-guided graph encoder 后,不同類別的聚類更加清晰。這說明圖編碼器可以幫助模型減少細粒度臨床概念之間的歧義,使表示空間更具判別性。

    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    在 case study 中,模型不僅能夠預測診斷類別,還可以圍繞器官、形狀、邊界、內部特征、血流信號等多個維度給出判斷。這種多屬性聯合判斷方式更接近真實臨床診斷邏輯,因為醫生并不是只判斷“是什么病”,而是綜合病灶位置、形態、邊界、回聲和血流等信息進行分析。

    總結

    總體來看,Ultrasound-CLIP 的貢獻主要體現在三個方面。首先,作者構建了面向超聲領域的大規模圖文數據集 US-365K,彌補了超聲數據在醫學視覺-語言預訓練中的不足。其次,論文提出 UDT 超聲診斷知識框架,將超聲報告拆解為身體系統、器官、診斷、形狀、邊界、回聲、內部特征、后方聲學現象和血流信號等結構化屬性。最后,作者在 CLIP 框架中引入語義軟標簽和異質圖編碼器,使模型不僅學習圖像與文本的匹配關系,也能建模樣本之間的醫學語義相似性和診斷屬性之間的結構關系。

    這項工作說明,在醫學多模態建模中,僅依賴通用圖文匹配并不足夠。對于超聲這類高度依賴專業知識和細粒度屬性判斷的醫學影像任務,將領域知識、診斷結構和語義關系顯式融入預訓練過程,是提升模型臨床理解能力的重要方向。當然,該方法仍需在更多真實臨床場景、多中心數據和不同設備條件下進一步驗證其泛化能力與可靠性。



    文獻分享 | CVPR 2026 | Ultrasound-CLIP:讓視覺-語言模型真正讀懂超聲圖像與報告

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产TS视频一区二区| www.色吊丝av.com| 免费观看全黄做爰大片国产| AV无码免费不卡在线观看| 中文字幕人妻精品免费| 草草影院精品一区二区三区| 日韩区二区三区中文字幕| 99精品国产一区二区三区2021 | 中文字幕熟妇人| 国产伦片中文免费观看| 午夜社区| 国产亚洲欧美日韩国产片| 亚洲国产成熟视频在线多多 | 成人午夜免费无码福利片| 日本一区二区不卡精品| 久久天天躁狠狠躁夜夜躁2020| 性生大片一级毛片免费观看| 亚洲精品乱码久久久久久蜜桃 | 无码喷水一区二区浪潮AV| 欧美色aⅴ欧美综合色| 成人看的污污超级黄网站免费| 国产在线精品欧美日韩电影| 国产精品日日摸夜夜添夜夜添无码| 强伦姧人妻免费无码电影| 九九国产| 操爽美人妻电影在线播放| 男女啪啪高潮激烈免费版| 午夜激情小视频一区二区| 国产无码VA| 亚洲va综合va国产va中文| 亚洲深夜精品在线观看| 久章草在线精品视频免费观看| 欧美曰批视频免费播放免费 | 2021精品国产品免费观看| 按摩师玩弄少妇到高潮hd| 色噜噜AV| 亚洲欧美电影在线一区二区| 2021国内精品久久久久精免费| 99re6国产在线| 国产av亚洲精品久久久久久小说| 成人精品自拍视频免费看|