ICML 2026 | ML-Embed用一個框架打破嵌入模型的三重壁壘

本文作者：陳淑瑜

2026-06-15 14:27

專題：ICML：國際機器學習會議

導語：一項來自螞蟻集團與上海交通大學的 ICML 2026 工作，正在重新定義多語言嵌入模型的可能邊界。

來源：公眾號“PaperAgent”
原文鏈接：https://mp.weixin.qq.com/s/ECLRTHebLtIfjmZhbaJ4hA?scene=1&click_id=24

想象一下：全球有超過7000種語言，而當你用波蘭語、越南語、波斯語或印地語向 AI 系統提問時，它理解你的能力可能遠不及英語用戶的十分之一。

這不是模型能力的問題，而是結構性的資源分配失衡。

文本嵌入（Text Embedding）是現代 AI 的語義核心——它將文字轉化為高維向量，支撐著搜索、問答、RAG 等一系列核心應用。然而，這個看似基礎的組件，正在悄然制造三道壁壘：

壁壘一：計算門檻越來越高。 基于 Qwen3 等大語言模型訓練嵌入模型，動輒需要數百億參數規模的算力，絕大多數研究機構難以企及。

壁壘二：語言覆蓋嚴重失衡。 看下面這張表——截至2026年2月，MTEB 波蘭語榜單上有完整測評結果的模型只有1個，而英語和多語言榜單各有近150個。

壁壘三：研究黑箱化。 頂尖模型要么閉源 API，要么只開放權重不開放訓練細節，可復現研究舉步維艱。

來自螞蟻集團與上海交通大學的研究者決定正面迎擊這三個問題，提出了 ML-Embed 模型，并被 ICML 2026收錄。

核心思路：把"套娃"思想延伸到三個維度

ML-Embed的方法論核心是 3D-ML（3-Dimensional Matryoshka Learning）——一個將俄羅斯套娃（Matryoshka）嵌套訓練原則擴展到三個不同維度的統一訓練框架。

用一句話概括：3D-ML 讓模型在訓練、推理、存儲的全生命周期中都可以按需縮小，而不損失核心能力。

這三個維度分別對應三種技術：

維度一：MEL——讓嵌入層瘦身而不失憶

嵌入層（Embedding Layer）是多語言模型的詞匯表接口，負責將詞元映射為向量。問題是，它的參數量往往驚人——在基于 Qwen3-0.6B 的嵌入模型中，嵌入層參數占總參數的 1/4。

傳統做法是完整訓練這個龐大矩陣，或者用LoRA只更新增量。MEL（Matryoshka Embedding Learning） 走了第三條路：

對原始嵌入矩陣進行SVD分解，截斷為兩個低秩矩陣和，訓練時只更新這兩個小矩陣。

更關鍵的是，每次前向傳播時，MEL會動態采樣一個子秩，強迫模型把最重要的信息壓縮進前幾個分解維度——這正是"套娃"的精髓：最核心的信息永遠在最內層。

推理時有兩種部署選項：

兼容模式：把相乘還原為標準矩陣，無需改動任何推理代碼；
效率模式：直接部署低秩分解矩陣，顯存大幅減少，適合端側或資源受限場景。

MEL 與 LoRA 的關鍵區別在于：它不僅減少了可訓練參數，也減少了推理時的總參數量，是真正意義上的端到端壓縮。

維度二：MLL——讓層數變成旋鈕而非固定值

MLL（Matryoshka Layer Learning） 的思路更直接：在訓練時，同時對多個中間層施加損失，讓淺層子模型也能獨立勝任嵌入任務。

推理時，只需修改配置文件里的 num_hidden_layers 參數，即可得到不同深度的模型——不需要重新訓練，不需要復雜剪枝，一個模型，N種深度。

對數間隔的層集合（如 {1, 2, 4, 8, 16, 32}）確保了從淺到深的覆蓋，每一層輸出都經過最終層歸一化處理，保持表征的一致性。

維度三：MRL——讓向量維度按需截斷

MRL（Matryoshka Representation Learning） 來自2022年 NeurIPS 的同名工作，核心思想是：訓練時同時優化不同長度的向量前綴，讓截斷后的短向量也有效。

在3D-ML中，MRL并非孤立模塊，而是與 MLL 深度集成：對每一個MLL層的輸出，同時施加多個 MRL 維度的對比損失。

統一損失函數

三者的聯合優化目標如下：

其中是第層在維度下的表征函數。

數據：從英中中心到真正的全球覆蓋

方法創新之外，ML-Embed 的另一大貢獻是數據集本身。

研究者從121個公開數據源匯聚了 5000萬訓練樣本，覆蓋 282種自然語言（ISO-639-3編碼）和 40余種編程語言。語言分布如下圖所示，從英語、中文到西班牙語、阿拉伯語，再到低資源語言的長尾：

對比之下，目前最具代表性的開源數據集 KaLM-Embedding 的數據僅用英語/中文/多語言三個粗粒度標簽標注，且絕大多數數據集中在英文（49.4%）和中文（44.4%）。ML-Embed 的數據分布則真正反映了世界語言的多樣性。

訓練采用 兩階段策略：

第一階段：在約2700萬大規模檢索數據上預熱，建立基礎語義理解；
第二階段：在全部數據源混合采樣約830萬樣本上微調，加入任務指令，增強多任務適應性。

值得注意的是，ML-Embed 的總訓練數據量僅為同類SOTA模型的約1/5：

模型	第一階段數據量	第二階段數據量	數據開放？
Qwen3-Embedding	150M	12M	?
EmbeddingGemma	153M	10M	?
KaLM-Embedding	100M	5M	?
ML-Embed (Ours)	27M	8M	?

實驗結果：9項MTEB榜單SOTA，低資源語言大幅領先

在17個MTEB基準、共430個任務上的全面評測中，ML-Embed-8B 在其中9項刷新SOTA記錄：

低資源語言上的進展尤為顯著：

語言/基準	提升幅度
波蘭語	+22.89
越南語	+6.88
印地語系	+6.61
德語	+6.47
日語	+4.63
荷蘭語	+4.26
北歐語系	+3.93
歐洲語系	+4.40
法語	+1.54

在英語和多語言綜合榜單上，各規模模型也達到 Top-5 水平，且從 140M 到 8B 呈現出清晰穩定的規模擴展趨勢。

消融實驗：每個組件都在做什么貢獻？

MLL + MEL 的協同效應

這張圖揭示了一個非常有趣的現象：

單獨使用 MLL：可以用一次訓練成本得到深度可變的模型，代價是淺層模型略遜于專門訓練的對應深度模型；
引入MEL之后：通過大幅壓縮嵌入層參數，在相同參數預算下可以部署更深的模型。

具體數字：4層的 MLL+MEL 模型參數量約170M，與1層基線模型相當——但性能高出15分；在相同性能水平下，體積縮小3倍。

MEL 的魯棒性：SVD 壓縮的邊界在哪里？

這個實驗回答了一個關鍵問題：能否在推理時直接對嵌入矩陣做 SVD 分解來節省顯存？

結論是鮮明的：

直接對基線模型做 SVD 分解：性能從69.68驟降至53.25，災難性崩潰；
僅使用分解形式訓練（無套娃目標）：魯棒性提升，但隨秩減少仍有明顯下降；
MEL 訓練的模型：即便減小至秩64，仍保持64.30的高分，下降曲線極為平緩。

MEL 的套娃訓練目標強迫模型將關鍵信息集中在低秩空間的前幾個維度，這正是其魯棒性的來源。

數據對比：更廣不等于更弱

在相同底座、相同訓練流程下，分別用 ML-Embed 數據和 KaLM-Embedding 數據訓練 0.6B 模型：

ML-Embed 數據在17個基準中的9項表現更優，尤其在代碼基準領先顯著；
KaLM-Embedding 數據在中文上具有優勢（符合其數據分布的預期）；
其余7個基準（韓語、波蘭語、荷蘭語、印地語等）兩者相當。

這說明：語言多樣性的提升，并不以犧牲主流語言性能為代價。

框架的泛化性：不只適用于 Qwen3

為驗證 3D-ML 的普適性，研究者在 EuroBERT-210M 上額外進行了實驗，對比三種設置：

模型	平均分
EuroBERT基線（210M）	60.38
結構剪枝到 120M + 微調	44.10
3D-ML 訓練后剪枝到 120M	56.77

3D-ML訓練后剪枝的模型，相比直接結構剪枝，平均分高出12.67分，性能損失極小（相對于 210M 基線僅損失3.61分），驗證了框架的廣泛適用性。

開源與可復現性：打破透明度壁壘的承諾

與許多頂尖嵌入模型截然不同，ML-Embed做到了真正意義上的全量開源：

訓練代碼：https://github.com/codefuse-ai/CodeFuse-Embeddings
模型權重 & 數據集：https://huggingface.co/collections/codefuse-ai/codefuse-embeddings
論文：https://arxiv.org/abs/2605.15081

0人收藏

專題

ICML：國際機器學習會議

本專題其他文章

陳淑瑜

編輯

發私信

當月熱門文章