GAIR Paper 102 ｜不靠真實(shí)語音堆料，低資源 TTS 也能 SOTA ｜ICML 2026

本文作者：陳淑瑜

2026-06-17 18:14

導(dǎo)語：SE-Bridge-TTS：合成數(shù)據(jù)也能訓(xùn)出穩(wěn)定、自然、可克隆的低資源語言 SOTA TTS。

GAIR Paper 102 ｜不靠真實(shí)語音堆料，低資源 TTS 也能 SOTA ｜ICML 2026

邏輯智能團(tuán)隊(duì)關(guān)于低資源語言 TTS 的研究論文被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 ICML 2026 接收。該工作證明，即使真實(shí)語音數(shù)據(jù)稀缺，合成數(shù)據(jù)也能訓(xùn)練出穩(wěn)定、自然、可克隆的語音模型。

作者丨邏輯智能

SE-Bridge-TTS 是一套面向低資源語言的語音合成方案，核心能力是：在真實(shí)語音數(shù)據(jù)稀缺的情況下，仍然生成穩(wěn)定、自然、可克隆的多語言語音，可用于博客配音、視頻翻譯配音、跨語言內(nèi)容本地化、數(shù)字人、語音助手和小語種內(nèi)容生產(chǎn)。

邏輯智能邀請(qǐng)您體驗(yàn)免費(fèi)配音，官網(wǎng)：https://luoji.cn/

開源項(xiàng)目 Video Translator：面向 AI 編程助手和 Agent 工作流，支持通過 Skill 方式快速接入，方便開發(fā)者在現(xiàn)有工具鏈中一鍵安裝和使用，也可參考其實(shí)現(xiàn)擴(kuò)展到更多國內(nèi)外 AI 編程工具。

項(xiàng)目地址：https://github.com/InsiderX-Pro/video-translator

近一年，多語言 TTS 正在成為語音生成領(lǐng)域的主流方向。新的系統(tǒng)不斷出現(xiàn)，目標(biāo)也越來越統(tǒng)一：支持更多語言、更多說話人、更強(qiáng)的跨語言提示合成，以及 0-shot voice cloning。

但多語言覆蓋并不等于低資源語言真的被解決了。對(duì)泰語、老撾語這類小語種來說，模型能“支持”某個(gè)語言，和模型能在這個(gè)語言上穩(wěn)定、自然、像目標(biāo)說話人一樣生成語音，是兩件不同的事。

SE-Bridge-TTS 的切入點(diǎn)正是在這里。它沒有從頭訓(xùn)練一個(gè)更大的多語言基礎(chǔ)模型，而是基于 CosyVoice2 這樣的開源底座，從數(shù)據(jù)層面重新拆解低資源 TTS：真實(shí)語音稀缺時(shí)，合成數(shù)據(jù)該如何使用？合成數(shù)據(jù)越多是否一定越好？當(dāng)發(fā)音穩(wěn)定性和語音表現(xiàn)力發(fā)生沖突時(shí)，訓(xùn)練流程應(yīng)該如何修正？

這項(xiàng)工作已被 ICML 2026 接收。更關(guān)鍵的是，項(xiàng)目近期公開了 Thai / Lao 權(quán)重，并補(bǔ)充了 FLEURS Lao/Thai 多語言提示評(píng)測：在與 Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期開放多語言 TTS 系統(tǒng)的對(duì)比中，SE-Bridge-TTS 在老撾語和泰語目標(biāo)語言上達(dá)到與現(xiàn)有 SOTA 一致甚至更優(yōu)的效果。

論文標(biāo)題	Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models
項(xiàng)目名稱	SE-Bridge-TTS
會(huì)議	ICML 2026
關(guān)鍵詞	Spoken Language Models · Low-Resource TTS · Preference Alignment · Zero-Shot Voice Cloning
論文鏈接	https://arxiv.org/abs/2605.27383
項(xiàng)目主頁	https://insiderx-pro.github.io/SE-Bridge-TTS/
官方倉庫	https://github.com/InsiderX-Pro/SE-Bridge-TTS
模型權(quán)重	https://huggingface.co/isabeth/SE-Bridge-TTS
開源項(xiàng)目地址	https://github.com/InsiderX-Pro/video-translator
項(xiàng)目企業(yè)官網(wǎng)	https://luoji.cn/

低資源語言的 TTS 系統(tǒng)長期受限于真實(shí)標(biāo)注語音不足。合成數(shù)據(jù)看似是最直接的擴(kuò)容方案：它能提供穩(wěn)定的文本-語音配對(duì)，幫助模型學(xué)會(huì)發(fā)音和讀詞。但論文系統(tǒng)性地證明，合成數(shù)據(jù)并不是簡單的“越多越好”。

在泰語實(shí)驗(yàn)中，隨著合成數(shù)據(jù)比例提高，詞錯(cuò)誤率（WER）持續(xù)下降，說明發(fā)音穩(wěn)定性確實(shí)改善；但超過關(guān)鍵比例后，語音 token 熵、自然度 MOS、說話人相似度 MOS 都開始下降，重復(fù)率顯著上升。論文將這種現(xiàn)象命名為 Synthetic Erosion：低熵、平坦的合成語音分布逐漸侵蝕模型從預(yù)訓(xùn)練骨干中繼承的表現(xiàn)力。

圍繞這一問題，論文提出“穩(wěn)定性-表現(xiàn)力鴻溝”（Stability-Expressivity Gap），并給出兩套自對(duì)齊框架：DGSA 用于有一定真實(shí)參考語音的場景，通過韻律-音色解耦自動(dòng)構(gòu)造偏好樣本；TDSC 用于幾乎沒有真實(shí)語音錨點(diǎn)的極低資源場景，通過多溫度采樣、ASR 過濾和迭代偏好學(xué)習(xí)，讓模型在純合成訓(xùn)練下逐步自我修正。

多語言 TTS 的主流趨勢(shì)，和低資源語言的真實(shí)缺口

語音大模型（Spoken Language Models, SLMs）正在成為下一代文本轉(zhuǎn)語音、實(shí)時(shí)語音交互和跨語言語音生成的核心技術(shù)路線。相比傳統(tǒng) TTS 依賴字素到音素（Grapheme-to-Phoneme, G2P）規(guī)則，SLM 可以直接建模離散語音 token，從而減少復(fù)雜語言規(guī)則帶來的工程負(fù)擔(dān)。

不過，在低資源語言上，問題并不會(huì)因?yàn)槟Ｐ妥兇蠡蚋采w語言更多而自然消失。泰語有復(fù)雜聲調(diào)和發(fā)音變化，語音自然度、韻律和說話人身份保持都很敏感；老撾語公開高質(zhì)量語音資源更少，很多通用系統(tǒng)即使能生成，也未必能穩(wěn)定進(jìn)行 0-shot voice cloning。

這些語言真正缺的往往不是一個(gè)更復(fù)雜的模型結(jié)構(gòu)，而是高質(zhì)量訓(xùn)練數(shù)據(jù)，以及圍繞這些數(shù)據(jù)設(shè)計(jì)的訓(xùn)練策略。合成數(shù)據(jù)可以補(bǔ)足文本-語音配對(duì)，但大量平坦合成語音也會(huì)壓縮模型輸出分布，讓語音變得更單調(diào)。因此，SE-Bridge-TTS 關(guān)注的不是“如何再做一個(gè)大而全的多語言 TTS”，而是一個(gè)更可復(fù)用的問題：能不能基于現(xiàn)有開源底座，用一套數(shù)據(jù)層面的訓(xùn)練方案，把低資源小語種做到足夠強(qiáng)？

核心發(fā)現(xiàn)：合成數(shù)據(jù)不是越多越好

論文最重要的發(fā)現(xiàn)，是合成數(shù)據(jù)比例與語音質(zhì)量之間存在非單調(diào)關(guān)系。研究團(tuán)隊(duì)固定 300 小時(shí)真實(shí)泰語語音，并將合成語音從 10 小時(shí)逐步增加到 1,500 小時(shí)，對(duì)應(yīng)合成比例 α 從 3% 到 100%。

在第一階段（α ≤ 50%），合成數(shù)據(jù)同時(shí)提升穩(wěn)定性與表現(xiàn)力。WER 從 75.0% 降到 47.0%，說明發(fā)音錯(cuò)誤顯著減少；自然度 NMOS 從 3.82 提升到 4.51，說話人相似度 SMOS 從 4.31 提升到 4.63。

但在第二階段（α > 50%），穩(wěn)定性繼續(xù)改善，表現(xiàn)力開始坍縮。當(dāng) α 提升到 80% 時(shí)，WER 進(jìn)一步降到 38.9%，但 NMOS 降到 3.61，SMOS 降到 3.54，重復(fù)率從 2.16% 上升到 6.51%。進(jìn)入 100% 純合成訓(xùn)練時(shí)，WER 雖然達(dá)到 36.2%，但 NMOS 只有 3.08，重復(fù)率升至 9.83%。

這說明低資源語音模型面臨的不是單一的數(shù)據(jù)規(guī)模問題，而是穩(wěn)定性和表現(xiàn)力之間的結(jié)構(gòu)性權(quán)衡。WER、CER 這類指標(biāo)更容易自動(dòng)評(píng)估，也更容易推動(dòng)系統(tǒng)“讀對(duì)”；但真正可用的語音系統(tǒng)還必須“說得自然”，并保留目標(biāo)說話人的身份特征。

圖 1：合成數(shù)據(jù)比例變化下的穩(wěn)定性與表現(xiàn)力指標(biāo)

SE-Bridge-TTS 的路線：不重造底座，而是重做數(shù)據(jù)方案

SE-Bridge-TTS 基于 CosyVoice2 生態(tài)發(fā)布 Thai / Lao 兩個(gè)可加載 checkpoint。官方 Hugging Face model card 明確說明，這些權(quán)重是 CosyVoice2 LLM checkpoints，需要配合 CosyVoice2-compatible checkout 和標(biāo)準(zhǔn) CosyVoice2 base model assets 使用。

也就是說，這項(xiàng)工作并不是閉源大模型式的一體化發(fā)布，而是一套圍繞開源底座可復(fù)用的低資源訓(xùn)練 recipe。它先識(shí)別低資源語音合成中的 Stability-Expressivity Gap，再分別針對(duì)“有一定真實(shí)參考語音”和“幾乎沒有真實(shí)語音錨點(diǎn)”的兩類場景提出 DGSA 與 TDSC。

DGSA：有真實(shí)參考語音時(shí)，恢復(fù)表現(xiàn)力

DGSA（Disentanglement-Guided Self-Alignment）適用于一種相對(duì)有利的低資源場景：目標(biāo)語言有一定真實(shí)語音，可以作為韻律參考，但數(shù)量不足以支撐大規(guī)模訓(xùn)練。

它的關(guān)鍵觀察來自 Flow-Matching SLM 的結(jié)構(gòu)解耦：Text-Speech LM 更負(fù)責(zé)內(nèi)容和韻律相關(guān)的離散 token，F(xiàn)low-Matching Transformer 則通過參考語音提取音色 embedding，維持說話人身份。換句話說，韻律和音色在結(jié)構(gòu)上存在一定分離。

利用這個(gè)解耦特性，DGSA 讓同一個(gè)模型對(duì)同一段文本和同一個(gè)參考說話人生成兩類互補(bǔ)輸出：打開 style token，得到更有表現(xiàn)力但可能更容易出錯(cuò)的語音；關(guān)閉 style token，得到更穩(wěn)定但更平坦的語音。真實(shí)語音同時(shí)具備穩(wěn)定性和表現(xiàn)力，因此可以作為偏好對(duì)齊中的正樣本。

隨后，DGSA 使用雙目標(biāo) DPO 進(jìn)行偏好對(duì)齊：一組偏好糾正表現(xiàn)力輸出中的發(fā)音錯(cuò)誤，另一組偏好糾正穩(wěn)定輸出中的韻律平坦。動(dòng)態(tài)權(quán)重調(diào)度會(huì)控制表現(xiàn)力目標(biāo)何時(shí)介入：在 α ≤ 50% 時(shí)，模型尚未出現(xiàn)明顯 Synthetic Erosion，系統(tǒng)主要維持穩(wěn)定性訓(xùn)練；當(dāng) α 超過臨界點(diǎn)后，表現(xiàn)力目標(biāo)逐步被激活。

在 α = 80% 的高合成比例設(shè)置下，DGSA 的效果很直接：它保持了 SFT 基線的 WER，同時(shí)顯著恢復(fù)自然度、說話人相似度和 token 熵。相比之下，標(biāo)準(zhǔn) DPO 雖然可以提高表現(xiàn)力，但會(huì)導(dǎo)致 WER 惡化，說明單目標(biāo)偏好優(yōu)化容易犧牲發(fā)音穩(wěn)定性。

圖 2：DGSA 方法結(jié)構(gòu)：利用 style token 生成互補(bǔ)候選，并用真實(shí)語音構(gòu)造偏好對(duì)

TDSC：幾乎沒有真實(shí)語音錨點(diǎn)時(shí)，讓模型自我改進(jìn)

老撾語代表的是更難的設(shè)定：真實(shí)高質(zhì)量目標(biāo)語言語音錨點(diǎn)非常有限。此時(shí)，DGSA 很難直接依賴真實(shí)語音來構(gòu)造偏好樣本。TDSC（Temperature-Driven Self-Critique）解決的正是這個(gè)問題。

TDSC 的思路是讓模型自己探索、自己篩選、自己迭代。它對(duì)每個(gè)輸入文本使用低、中、高多個(gè)采樣溫度生成候選語音：低溫度輸出更保守，發(fā)音更穩(wěn)，但韻律可能更平；高溫度輸出更有探索性，韻律更豐富，但錯(cuò)誤風(fēng)險(xiǎn)更高；中溫度則提供二者之間的候選。

隨后，Judge 模塊基于 ASR、長度和重復(fù)率等自動(dòng)指標(biāo)過濾候選。通過過濾的樣本進(jìn)入 accepted set，錯(cuò)誤更高但仍滿足基礎(chǔ)約束的樣本進(jìn)入 rejected set，二者組成偏好學(xué)習(xí)數(shù)據(jù)。訓(xùn)練循環(huán)分兩步：先用 accepted samples 做 SFT，讓模型建立穩(wěn)定生成能力；再用 accepted/rejected pairs 做 DPO，讓模型學(xué)會(huì)區(qū)分好壞候選，抑制幻覺、重復(fù)和錯(cuò)誤發(fā)音。

隨著迭代推進(jìn)，系統(tǒng)會(huì)逐步擴(kuò)大高溫采樣上限，讓模型先獲得發(fā)音穩(wěn)定性，再恢復(fù)韻律探索空間。在老撾語實(shí)驗(yàn)中，TDSC 從同一個(gè)純合成 SFT 基線出發(fā)，將 WER 從 38.5% 降到 29.8%，重復(fù)率從 7.62% 降到 4.15%，NMOS 從 3.12 提升到 3.94。這說明 TDSC 不是簡單的推理時(shí)篩選，而是通過閉環(huán)訓(xùn)練改變了模型策略本身。

圖 3：TDSC 方法結(jié)構(gòu)：多溫度采樣、自動(dòng)過濾與偏好學(xué)習(xí)閉環(huán)

實(shí)驗(yàn)與新公開評(píng)測：在近期多語言 TTS 對(duì)比中仍然領(lǐng)先

論文在泰語和老撾語上比較了開源系統(tǒng)、商業(yè) API 和本文方法。泰語使用 DGSA，老撾語使用 TDSC；評(píng)價(jià)包括標(biāo)準(zhǔn) TTS 和 0-shot 語音克隆兩個(gè)任務(wù)。整體結(jié)果顯示，低資源語言并不只能在“發(fā)音準(zhǔn)確”和“說話自然”之間二選一：只要對(duì)合成數(shù)據(jù)帶來的分布?jí)嚎s進(jìn)行顯式建模和偏好修正，模型可以同時(shí)維持穩(wěn)定性、自然度和說話人身份。

圖 4：泰語與老撾語低資源TTS 性能對(duì)比：

我們的方法在發(fā)音準(zhǔn)確性與語音自然度上整體優(yōu)于開源及商業(yè)系統(tǒng)

項(xiàng)目近期還新增了一個(gè)可復(fù)現(xiàn)的 FLEURS Lao/Thai benchmark，用于比較 SE-Bridge-TTS 與 Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期開放多語言 TTS 系統(tǒng)。評(píng)測覆蓋 255 組 Lao/Thai paired target sentences，并使用 Lao、Thai、Chinese、English 作為 reference prompt language。模型需要根據(jù)同樣的 target_text、prompt_audio、prompt_text、target_language_id 和 prompt_language_id 生成語音。

最緊湊的主結(jié)果，是 Chinese/English prompt → Lao/Thai target 的跨語言提示合成設(shè)置。這里的 Accuracy 來自 calibrated CER：先用 ground-truth CER 扣除 ASR 在原始 FLEURS target audio 上的識(shí)別誤差，再衡量合成語音額外帶來的退化。這樣能減少識(shí)別器本身對(duì)低資源語言不完美造成的偏差，更聚焦模型合成質(zhì)量。

指標(biāo)定義

calibrated CER = max(0, generated CER - ground-truth CER)；Accuracy = 1 - calibrated CER。

模型	支持樣本	Accuracy ↑	Speaker similarity ↑
Higgs Audio v3	1020/1020	78.2%	0.520
OmniVoice	1020/1020	75.9%	0.645
SE-Bridge-TTS	1020/1020	83.4%	0.593
X-Voice Stage1	510/1020	53.7%	0.361

表 2：Chinese/English prompt → Lao/Thai target 的跨語言提示合成主結(jié)果

從結(jié)果看，SE-Bridge-TTS 的優(yōu)勢(shì)很清楚：在跨語言 prompt 到 Lao/Thai target 的總體 accuracy 上，SE-Bridge-TTS 為 83.4%，高于 Higgs Audio v3 的 78.2%、OmniVoice 的 75.9% 和 X-Voice Stage1 的 53.7%。在 speaker similarity 上，SE-Bridge-TTS 為 0.593，僅低于 OmniVoice 的 0.645，仍明顯高于 Higgs Audio v3 和 X-Voice Stage1。X-Voice Stage1 在該評(píng)測中的 Lao 方向不支持，覆蓋率為 510/1020；SE-Bridge-TTS 則完整覆蓋 1020/1020。

這說明 SE-Bridge-TTS 并不是只在論文原始設(shè)定里有效。即使放到近期多語言 TTS 系統(tǒng)的統(tǒng)一評(píng)測框架下，它仍然保持了很強(qiáng)的低資源語言合成能力。

為什么這套方案值得復(fù)用

SE-Bridge-TTS 的先進(jìn)性不只是“某個(gè)指標(biāo)更高”，而是它提供了一個(gè)低資源 TTS 可復(fù)用范式。首先，它把瓶頸放在數(shù)據(jù)分布，而不是單純模型規(guī)模。對(duì)于低資源小語種，最難的問題往往不是模型不會(huì)生成語音，而是有限真實(shí)數(shù)據(jù)和大量合成數(shù)據(jù)之間存在分布沖突。

其次，它基于開源底座完成增強(qiáng)。項(xiàng)目公開的 Thai / Lao 權(quán)重是 CosyVoice2-compatible checkpoint，推理說明也直接圍繞 CosyVoice2 展開。這降低了復(fù)現(xiàn)和遷移門檻，避免把方案綁定在不可控的閉源系統(tǒng)上。

第三，它同時(shí)覆蓋兩類低資源場景。DGSA 面向“有一定真實(shí)參考語音”的語言，TDSC 面向“真實(shí)語音錨點(diǎn)非常少”的語言。前者解決高合成比例下的表現(xiàn)力恢復(fù)，后者解決純合成或近似純合成訓(xùn)練下的自改進(jìn)。

第四，它提供了完整公開資產(chǎn)。官方倉庫包含 project page、音頻 Demo、FLEURS 評(píng)測協(xié)議、結(jié)果 CSV 和 table renderer；Hugging Face 提供權(quán)重和推理說明。這讓結(jié)果不只是論文里的表格，而是可以被聽、被測、被復(fù)現(xiàn)的工程方案。

從產(chǎn)業(yè)和研究角度看，如果一個(gè)語言缺少大規(guī)模高質(zhì)量錄音，但可以獲得基礎(chǔ)文本、少量真實(shí)語音和可用 ASR，那么類似流程就有遷移空間：使用開源 TTS/SLM 底座作為初始化；用合成數(shù)據(jù)補(bǔ)足發(fā)音覆蓋；監(jiān)控合成比例帶來的穩(wěn)定性和表現(xiàn)力變化；在有真實(shí)參考時(shí)使用 DGSA 做偏好對(duì)齊；在真實(shí)語音不足時(shí)使用 TDSC 做多溫度自批判和迭代篩選。

結(jié)語

多語言 TTS 的趨勢(shì)還會(huì)繼續(xù)，模型也會(huì)越來越大、覆蓋越來越廣。但 SE-Bridge-TTS 提醒我們：低資源小語種真正需要的，不一定總是更大的模型，而是更懂?dāng)?shù)據(jù)分布的訓(xùn)練方案。

基于 CosyVoice2 這樣的開源底座，SE-Bridge-TTS 通過合成數(shù)據(jù) scaling、DGSA 和 TDSC，把低資源語言中的穩(wěn)定性與表現(xiàn)力矛盾拆開處理，并在新的 FLEURS Lao/Thai 評(píng)測中達(dá)到甚至超過近期多語言 TTS SOTA 的效果。

一句話概括：合成語音不只是更多數(shù)據(jù)。它能補(bǔ)足穩(wěn)定性，也會(huì)壓縮表現(xiàn)力；SE-Bridge-TTS 的價(jià)值，就是讓低資源語言模型重新學(xué)會(huì)自然地說話。