• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給陳淑瑜
    發送

    0

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    本文作者: 陳淑瑜   2026-06-15 14:27 專題:ICML:國際機器學習會議
    導語:一項來自螞蟻集團與上海交通大學的 ICML 2026 工作,正在重新定義多語言嵌入模型的可能邊界。

    來源:公眾號“PaperAgent”

    原文鏈接:https://mp.weixin.qq.com/s/ECLRTHebLtIfjmZhbaJ4hA?scene=1&click_id=24

    想象一下:全球有超過7000種語言,而當你用波蘭語、越南語、波斯語或印地語向 AI 系統提問時,它理解你的能力可能遠不及英語用戶的十分之一。

    這不是模型能力的問題,而是結構性的資源分配失衡。

    文本嵌入(Text Embedding)是現代 AI 的語義核心——它將文字轉化為高維向量,支撐著搜索、問答、RAG 等一系列核心應用。然而,這個看似基礎的組件,正在悄然制造三道壁壘:

    壁壘一:計算門檻越來越高。 基于 Qwen3 等大語言模型訓練嵌入模型,動輒需要數百億參數規模的算力,絕大多數研究機構難以企及。

    壁壘二:語言覆蓋嚴重失衡。 看下面這張表——截至2026年2月,MTEB 波蘭語榜單上有完整測評結果的模型只有1個,而英語和多語言榜單各有近150個。

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    壁壘三:研究黑箱化。 頂尖模型要么閉源 API,要么只開放權重不開放訓練細節,可復現研究舉步維艱。

    來自螞蟻集團與上海交通大學的研究者決定正面迎擊這三個問題,提出了 ML-Embed 模型,并被 ICML 2026收錄。

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    核心思路:把"套娃"思想延伸到三個維度

    ML-Embed的方法論核心是 3D-ML(3-Dimensional Matryoshka Learning)——一個將俄羅斯套娃(Matryoshka)嵌套訓練原則擴展到三個不同維度的統一訓練框架。

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    用一句話概括:3D-ML 讓模型在訓練、推理、存儲的全生命周期中都可以按需縮小,而不損失核心能力。

    這三個維度分別對應三種技術:

    維度一:MEL——讓嵌入層瘦身而不失憶

    嵌入層(Embedding Layer)是多語言模型的詞匯表接口,負責將詞元映射為向量。問題是,它的參數量往往驚人——在基于 Qwen3-0.6B 的嵌入模型中,嵌入層參數占總參數的 1/4

    傳統做法是完整訓練這個龐大矩陣,或者用LoRA只更新增量。MEL(Matryoshka Embedding Learning) 走了第三條路:

    對原始嵌入矩陣  進行SVD分解,截斷為兩個低秩矩陣  和 ,訓練時只更新這兩個小矩陣。

    更關鍵的是,每次前向傳播時,MEL會動態采樣一個子秩 ,強迫模型把最重要的信息壓縮進前幾個分解維度——這正是"套娃"的精髓:最核心的信息永遠在最內層

    推理時有兩種部署選項:

    • 兼容模式:把  相乘還原為標準矩陣,無需改動任何推理代碼;
    • 效率模式:直接部署低秩分解矩陣,顯存大幅減少,適合端側或資源受限場景。

    MEL 與 LoRA 的關鍵區別在于:它不僅減少了可訓練參數,也減少了推理時的總參數量,是真正意義上的端到端壓縮。

    維度二:MLL——讓層數變成旋鈕而非固定值

    MLL(Matryoshka Layer Learning) 的思路更直接:在訓練時,同時對多個中間層施加損失,讓淺層子模型也能獨立勝任嵌入任務。

    推理時,只需修改配置文件里的 num_hidden_layers 參數,即可得到不同深度的模型——不需要重新訓練,不需要復雜剪枝,一個模型,N種深度

    對數間隔的層集合(如 {1, 2, 4, 8, 16, 32})確保了從淺到深的覆蓋,每一層輸出都經過最終層歸一化處理,保持表征的一致性。

    維度三:MRL——讓向量維度按需截斷

    MRL(Matryoshka Representation Learning) 來自2022年 NeurIPS 的同名工作,核心思想是:訓練時同時優化不同長度的向量前綴,讓截斷后的短向量也有效。

    在3D-ML中,MRL并非孤立模塊,而是與 MLL 深度集成:對每一個MLL層的輸出,同時施加多個 MRL 維度的對比損失。

    統一損失函數

    三者的聯合優化目標如下:

    其中  是第  層在維度  下的表征函數。

    數據:從英中中心到真正的全球覆蓋

    方法創新之外,ML-Embed 的另一大貢獻是數據集本身。

    研究者從121個公開數據源匯聚了 5000萬訓練樣本,覆蓋 282種自然語言(ISO-639-3編碼)和 40余種編程語言。語言分布如下圖所示,從英語、中文到西班牙語、阿拉伯語,再到低資源語言的長尾:

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    對比之下,目前最具代表性的開源數據集 KaLM-Embedding 的數據僅用英語/中文/多語言三個粗粒度標簽標注,且絕大多數數據集中在英文(49.4%)和中文(44.4%)。ML-Embed 的數據分布則真正反映了世界語言的多樣性。

    訓練采用 兩階段策略

    1. 第一階段:在約2700萬大規模檢索數據上預熱,建立基礎語義理解;
    2. 第二階段:在全部數據源混合采樣約830萬樣本上微調,加入任務指令,增強多任務適應性。

    值得注意的是,ML-Embed 的總訓練數據量僅為同類SOTA模型的約1/5

    模型
    第一階段數據量
    第二階段數據量
    數據開放?
    Qwen3-Embedding
    150M
    12M
    ?
    EmbeddingGemma
    153M
    10M
    ?
    KaLM-Embedding
    100M
    5M
    ?
    ML-Embed (Ours)27M8M?

    實驗結果:9項MTEB榜單SOTA,低資源語言大幅領先

    在17個MTEB基準、共430個任務上的全面評測中,ML-Embed-8B 在其中9項刷新SOTA記錄

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    低資源語言上的進展尤為顯著:

    語言/基準
    提升幅度
    波蘭語
    +22.89
    越南語
    +6.88
    印地語系
    +6.61
    德語
    +6.47
    日語
    +4.63
    荷蘭語
    +4.26
    北歐語系
    +3.93
    歐洲語系
    +4.40
    法語
    +1.54

    在英語和多語言綜合榜單上,各規模模型也達到 Top-5 水平,且從 140M 到 8B 呈現出清晰穩定的規模擴展趨勢。

    消融實驗:每個組件都在做什么貢獻?

    MLL + MEL 的協同效應

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    這張圖揭示了一個非常有趣的現象:

    • 單獨使用 MLL:可以用一次訓練成本得到深度可變的模型,代價是淺層模型略遜于專門訓練的對應深度模型;
    • 引入MEL之后:通過大幅壓縮嵌入層參數,在相同參數預算下可以部署更深的模型

    具體數字:4層的 MLL+MEL 模型參數量約170M,與1層基線模型相當——但性能高出15分;在相同性能水平下,體積縮小3倍

    MEL 的魯棒性:SVD 壓縮的邊界在哪里?

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    這個實驗回答了一個關鍵問題:能否在推理時直接對嵌入矩陣做 SVD 分解來節省顯存?

    結論是鮮明的:

    • 直接對基線模型做 SVD 分解:性能從69.68驟降至53.25,災難性崩潰;
    • 僅使用分解形式訓練(無套娃目標):魯棒性提升,但隨秩減少仍有明顯下降;
    • MEL 訓練的模型:即便減小至秩64,仍保持64.30的高分,下降曲線極為平緩。

    MEL 的套娃訓練目標強迫模型將關鍵信息集中在低秩空間的前幾個維度,這正是其魯棒性的來源。

    數據對比:更廣不等于更弱

    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    在相同底座、相同訓練流程下,分別用 ML-Embed 數據和 KaLM-Embedding 數據訓練 0.6B 模型:

    • ML-Embed 數據在17個基準中的9項表現更優,尤其在代碼基準領先顯著;
    • KaLM-Embedding 數據在中文上具有優勢(符合其數據分布的預期);
    • 其余7個基準(韓語、波蘭語、荷蘭語、印地語等)兩者相當。

    這說明:語言多樣性的提升,并不以犧牲主流語言性能為代價

    框架的泛化性:不只適用于 Qwen3

    為驗證 3D-ML 的普適性,研究者在 EuroBERT-210M 上額外進行了實驗,對比三種設置:

    模型
    平均分
    EuroBERT基線(210M)
    60.38
    結構剪枝到 120M + 微調
    44.10
    3D-ML 訓練后剪枝到 120M56.77

    3D-ML訓練后剪枝的模型,相比直接結構剪枝,平均分高出12.67分,性能損失極小(相對于 210M 基線僅損失3.61分),驗證了框架的廣泛適用性。

    開源與可復現性:打破透明度壁壘的承諾

    與許多頂尖嵌入模型截然不同,ML-Embed做到了真正意義上的全量開源:

    訓練代碼:https://github.com/codefuse-ai/CodeFuse-Embeddings
    模型權重 & 數據集:https://huggingface.co/collections/codefuse-ai/codefuse-embeddings
    論文:https://arxiv.org/abs/2605.15081


    ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

    分享:
    相關文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产日韩av在线播放| AV大帝| 国产超碰97人人爱| 色AV专区无码影音先锋| 图片区 小说区 区 亚洲五月| 亚洲日韩乱码中文无码蜜桃臀网站| 久久久999国产精品成人| 国产国产人免费人成免费| 国产顶级熟妇高潮xxxxx| 亚洲一区精品自拍视频| 久久综合狠狠综合久久| 日本成人有码| 亚洲人妻无码一区| 亚洲av综合色区在线观看天天| 老司机午夜免费精品视频| 伊人久久大香线蕉综合网| JAPANESE精品中国少妇| 国产精品%20高清%20尿%20小便%20嘘嘘| 午夜爽爽爽男女污污污网站 | 国产又黄又爽又刺激的免费网址 | 你懂的在线视频一区二区| 波多野结衣无码av| 狠狠操天天操| 99久久精品免费看国产电影| 亚洲精品无码人妻无码| 在线 欧美 中文 亚洲 精品| 免费视频国产在线观看| 淫逼网| 亚洲AV成人一区二区三区天堂| 插插无码视频大全不卡网站| 成人午夜视频在线| 国产小受被做到哭咬床单GV| 精品人妻无码一区二区三| 又大又粗又硬又爽黄毛少妇| 伊人色综合一区二区三区影院视频| 福利一区二区不卡国产| 最新国产精品精品视频| 色猫咪av在线网址| 精品国产美女福到在线不卡f| 日本国产精品第一页久久| 亚洲国产精品久久无人区|