0
| 本文作者: 陳淑瑜 | 2026-06-15 14:27 | 專題:ICML:國際機器學習會議 |
來源:公眾號“PaperAgent”
原文鏈接:https://mp.weixin.qq.com/s/ECLRTHebLtIfjmZhbaJ4hA?scene=1&click_id=24
想象一下:全球有超過7000種語言,而當你用波蘭語、越南語、波斯語或印地語向 AI 系統提問時,它理解你的能力可能遠不及英語用戶的十分之一。
這不是模型能力的問題,而是結構性的資源分配失衡。
文本嵌入(Text Embedding)是現代 AI 的語義核心——它將文字轉化為高維向量,支撐著搜索、問答、RAG 等一系列核心應用。然而,這個看似基礎的組件,正在悄然制造三道壁壘:
壁壘一:計算門檻越來越高。 基于 Qwen3 等大語言模型訓練嵌入模型,動輒需要數百億參數規模的算力,絕大多數研究機構難以企及。
壁壘二:語言覆蓋嚴重失衡。 看下面這張表——截至2026年2月,MTEB 波蘭語榜單上有完整測評結果的模型只有1個,而英語和多語言榜單各有近150個。

壁壘三:研究黑箱化。 頂尖模型要么閉源 API,要么只開放權重不開放訓練細節,可復現研究舉步維艱。
來自螞蟻集團與上海交通大學的研究者決定正面迎擊這三個問題,提出了 ML-Embed 模型,并被 ICML 2026收錄。

ML-Embed的方法論核心是 3D-ML(3-Dimensional Matryoshka Learning)——一個將俄羅斯套娃(Matryoshka)嵌套訓練原則擴展到三個不同維度的統一訓練框架。

用一句話概括:3D-ML 讓模型在訓練、推理、存儲的全生命周期中都可以按需縮小,而不損失核心能力。
這三個維度分別對應三種技術:
嵌入層(Embedding Layer)是多語言模型的詞匯表接口,負責將詞元映射為向量。問題是,它的參數量往往驚人——在基于 Qwen3-0.6B 的嵌入模型中,嵌入層參數占總參數的 1/4。
傳統做法是完整訓練這個龐大矩陣,或者用LoRA只更新增量。MEL(Matryoshka Embedding Learning) 走了第三條路:
對原始嵌入矩陣 進行SVD分解,截斷為兩個低秩矩陣 和 ,訓練時只更新這兩個小矩陣。
更關鍵的是,每次前向傳播時,MEL會動態采樣一個子秩 ,強迫模型把最重要的信息壓縮進前幾個分解維度——這正是"套娃"的精髓:最核心的信息永遠在最內層。
推理時有兩種部署選項:
MEL 與 LoRA 的關鍵區別在于:它不僅減少了可訓練參數,也減少了推理時的總參數量,是真正意義上的端到端壓縮。
MLL(Matryoshka Layer Learning) 的思路更直接:在訓練時,同時對多個中間層施加損失,讓淺層子模型也能獨立勝任嵌入任務。
推理時,只需修改配置文件里的 num_hidden_layers 參數,即可得到不同深度的模型——不需要重新訓練,不需要復雜剪枝,一個模型,N種深度。
對數間隔的層集合(如 {1, 2, 4, 8, 16, 32})確保了從淺到深的覆蓋,每一層輸出都經過最終層歸一化處理,保持表征的一致性。
MRL(Matryoshka Representation Learning) 來自2022年 NeurIPS 的同名工作,核心思想是:訓練時同時優化不同長度的向量前綴,讓截斷后的短向量也有效。
在3D-ML中,MRL并非孤立模塊,而是與 MLL 深度集成:對每一個MLL層的輸出,同時施加多個 MRL 維度的對比損失。
三者的聯合優化目標如下:
其中 是第 層在維度 下的表征函數。
方法創新之外,ML-Embed 的另一大貢獻是數據集本身。
研究者從121個公開數據源匯聚了 5000萬訓練樣本,覆蓋 282種自然語言(ISO-639-3編碼)和 40余種編程語言。語言分布如下圖所示,從英語、中文到西班牙語、阿拉伯語,再到低資源語言的長尾:

對比之下,目前最具代表性的開源數據集 KaLM-Embedding 的數據僅用英語/中文/多語言三個粗粒度標簽標注,且絕大多數數據集中在英文(49.4%)和中文(44.4%)。ML-Embed 的數據分布則真正反映了世界語言的多樣性。
訓練采用 兩階段策略:
值得注意的是,ML-Embed 的總訓練數據量僅為同類SOTA模型的約1/5:
| ML-Embed (Ours) | 27M | 8M | ? |
在17個MTEB基準、共430個任務上的全面評測中,ML-Embed-8B 在其中9項刷新SOTA記錄:

低資源語言上的進展尤為顯著:
| +22.89 | |
| +6.88 | |
| +6.61 | |
| +6.47 | |
| +4.63 | |
| +4.26 | |
| +3.93 | |
| +4.40 | |
| +1.54 |
在英語和多語言綜合榜單上,各規模模型也達到 Top-5 水平,且從 140M 到 8B 呈現出清晰穩定的規模擴展趨勢。

這張圖揭示了一個非常有趣的現象:
具體數字:4層的 MLL+MEL 模型參數量約170M,與1層基線模型相當——但性能高出15分;在相同性能水平下,體積縮小3倍。

這個實驗回答了一個關鍵問題:能否在推理時直接對嵌入矩陣做 SVD 分解來節省顯存?
結論是鮮明的:
MEL 的套娃訓練目標強迫模型將關鍵信息集中在低秩空間的前幾個維度,這正是其魯棒性的來源。

在相同底座、相同訓練流程下,分別用 ML-Embed 數據和 KaLM-Embedding 數據訓練 0.6B 模型:
這說明:語言多樣性的提升,并不以犧牲主流語言性能為代價。
為驗證 3D-ML 的普適性,研究者在 EuroBERT-210M 上額外進行了實驗,對比三種設置:
| 3D-ML 訓練后剪枝到 120M | 56.77 |
3D-ML訓練后剪枝的模型,相比直接結構剪枝,平均分高出12.67分,性能損失極小(相對于 210M 基線僅損失3.61分),驗證了框架的廣泛適用性。
與許多頂尖嵌入模型截然不同,ML-Embed做到了真正意義上的全量開源:
訓練代碼:https://github.com/codefuse-ai/CodeFuse-Embeddings
模型權重 & 數據集:https://huggingface.co/collections/codefuse-ai/codefuse-embeddings
論文:https://arxiv.org/abs/2605.15081