0
| 本文作者: 陳淑瑜 | 2026-06-17 18:14 | 專題:ICML:國際機(jī)器學(xué)習(xí)會(huì)議 |

作者丨邏輯智能
SE-Bridge-TTS 是一套面向低資源語言的語音合成方案,核心能力是:在真實(shí)語音數(shù)據(jù)稀缺的情況下,仍然生成穩(wěn)定、自然、可克隆的多語言語音,可用于博客配音、視頻翻譯配音、跨語言內(nèi)容本地化、數(shù)字人、語音助手和小語種內(nèi)容生產(chǎn)。
邏輯智能邀請(qǐng)您體驗(yàn)免費(fèi)配音,官網(wǎng):https://luoji.cn/
開源項(xiàng)目 Video Translator:面向 AI 編程助手和 Agent 工作流,支持通過 Skill 方式快速接入,方便開發(fā)者在現(xiàn)有工具鏈中一鍵安裝和使用,也可參考其實(shí)現(xiàn)擴(kuò)展到更多國內(nèi)外 AI 編程工具。
項(xiàng)目地址:https://github.com/InsiderX-Pro/video-translator
近一年,多語言 TTS 正在成為語音生成領(lǐng)域的主流方向。新的系統(tǒng)不斷出現(xiàn),目標(biāo)也越來越統(tǒng)一:支持更多語言、更多說話人、更強(qiáng)的跨語言提示合成,以及 0-shot voice cloning。
但多語言覆蓋并不等于低資源語言真的被解決了。對(duì)泰語、老撾語這類小語種來說,模型能“支持”某個(gè)語言,和模型能在這個(gè)語言上穩(wěn)定、自然、像目標(biāo)說話人一樣生成語音,是兩件不同的事。
SE-Bridge-TTS 的切入點(diǎn)正是在這里。它沒有從頭訓(xùn)練一個(gè)更大的多語言基礎(chǔ)模型,而是基于 CosyVoice2 這樣的開源底座,從數(shù)據(jù)層面重新拆解低資源 TTS:真實(shí)語音稀缺時(shí),合成數(shù)據(jù)該如何使用?合成數(shù)據(jù)越多是否一定越好?當(dāng)發(fā)音穩(wěn)定性和語音表現(xiàn)力發(fā)生沖突時(shí),訓(xùn)練流程應(yīng)該如何修正?
這項(xiàng)工作已被 ICML 2026 接收。更關(guān)鍵的是,項(xiàng)目近期公開了 Thai / Lao 權(quán)重,并補(bǔ)充了 FLEURS Lao/Thai 多語言提示評(píng)測:在與 Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期開放多語言 TTS 系統(tǒng)的對(duì)比中,SE-Bridge-TTS 在老撾語和泰語目標(biāo)語言上達(dá)到與現(xiàn)有 SOTA 一致甚至更優(yōu)的效果。
論文標(biāo)題 | Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models |
項(xiàng)目名稱 | SE-Bridge-TTS |
會(huì)議 | ICML 2026 |
關(guān)鍵詞 | Spoken Language Models · Low-Resource TTS · Preference Alignment · Zero-Shot Voice Cloning |
論文鏈接 | https://arxiv.org/abs/2605.27383 |
項(xiàng)目主頁 | https://insiderx-pro.github.io/SE-Bridge-TTS/ |
官方倉庫 | https://github.com/InsiderX-Pro/SE-Bridge-TTS |
模型權(quán)重 | https://huggingface.co/isabeth/SE-Bridge-TTS |
開源項(xiàng)目地址 | https://github.com/InsiderX-Pro/video-translator |
項(xiàng)目企業(yè)官網(wǎng) | https://luoji.cn/ |
在泰語實(shí)驗(yàn)中,隨著合成數(shù)據(jù)比例提高,詞錯(cuò)誤率(WER)持續(xù)下降,說明發(fā)音穩(wěn)定性確實(shí)改善;但超過關(guān)鍵比例后,語音 token 熵、自然度 MOS、說話人相似度 MOS 都開始下降,重復(fù)率顯著上升。論文將這種現(xiàn)象命名為 Synthetic Erosion:低熵、平坦的合成語音分布逐漸侵蝕模型從預(yù)訓(xùn)練骨干中繼承的表現(xiàn)力。
圍繞這一問題,論文提出“穩(wěn)定性-表現(xiàn)力鴻溝”(Stability-Expressivity Gap),并給出兩套自對(duì)齊框架:DGSA 用于有一定真實(shí)參考語音的場景,通過韻律-音色解耦自動(dòng)構(gòu)造偏好樣本;TDSC 用于幾乎沒有真實(shí)語音錨點(diǎn)的極低資源場景,通過多溫度采樣、ASR 過濾和迭代偏好學(xué)習(xí),讓模型在純合成訓(xùn)練下逐步自我修正。

01
語音大模型(Spoken Language Models, SLMs)正在成為下一代文本轉(zhuǎn)語音、實(shí)時(shí)語音交互和跨語言語音生成的核心技術(shù)路線。相比傳統(tǒng) TTS 依賴字素到音素(Grapheme-to-Phoneme, G2P)規(guī)則,SLM 可以直接建模離散語音 token,從而減少復(fù)雜語言規(guī)則帶來的工程負(fù)擔(dān)。
不過,在低資源語言上,問題并不會(huì)因?yàn)槟P妥兇蠡蚋采w語言更多而自然消失。泰語有復(fù)雜聲調(diào)和發(fā)音變化,語音自然度、韻律和說話人身份保持都很敏感;老撾語公開高質(zhì)量語音資源更少,很多通用系統(tǒng)即使能生成,也未必能穩(wěn)定進(jìn)行 0-shot voice cloning。
這些語言真正缺的往往不是一個(gè)更復(fù)雜的模型結(jié)構(gòu),而是高質(zhì)量訓(xùn)練數(shù)據(jù),以及圍繞這些數(shù)據(jù)設(shè)計(jì)的訓(xùn)練策略。合成數(shù)據(jù)可以補(bǔ)足文本-語音配對(duì),但大量平坦合成語音也會(huì)壓縮模型輸出分布,讓語音變得更單調(diào)。因此,SE-Bridge-TTS 關(guān)注的不是“如何再做一個(gè)大而全的多語言 TTS”,而是一個(gè)更可復(fù)用的問題:能不能基于現(xiàn)有開源底座,用一套數(shù)據(jù)層面的訓(xùn)練方案,把低資源小語種做到足夠強(qiáng)?

02
論文最重要的發(fā)現(xiàn),是合成數(shù)據(jù)比例與語音質(zhì)量之間存在非單調(diào)關(guān)系。研究團(tuán)隊(duì)固定 300 小時(shí)真實(shí)泰語語音,并將合成語音從 10 小時(shí)逐步增加到 1,500 小時(shí),對(duì)應(yīng)合成比例 α 從 3% 到 100%。
在第一階段(α ≤ 50%),合成數(shù)據(jù)同時(shí)提升穩(wěn)定性與表現(xiàn)力。WER 從 75.0% 降到 47.0%,說明發(fā)音錯(cuò)誤顯著減少;自然度 NMOS 從 3.82 提升到 4.51,說話人相似度 SMOS 從 4.31 提升到 4.63。
但在第二階段(α > 50%),穩(wěn)定性繼續(xù)改善,表現(xiàn)力開始坍縮。當(dāng) α 提升到 80% 時(shí),WER 進(jìn)一步降到 38.9%,但 NMOS 降到 3.61,SMOS 降到 3.54,重復(fù)率從 2.16% 上升到 6.51%。進(jìn)入 100% 純合成訓(xùn)練時(shí),WER 雖然達(dá)到 36.2%,但 NMOS 只有 3.08,重復(fù)率升至 9.83%。
這說明低資源語音模型面臨的不是單一的數(shù)據(jù)規(guī)模問題,而是穩(wěn)定性和表現(xiàn)力之間的結(jié)構(gòu)性權(quán)衡。WER、CER 這類指標(biāo)更容易自動(dòng)評(píng)估,也更容易推動(dòng)系統(tǒng)“讀對(duì)”;但真正可用的語音系統(tǒng)還必須“說得自然”,并保留目標(biāo)說話人的身份特征。

圖 1:合成數(shù)據(jù)比例變化下的穩(wěn)定性與表現(xiàn)力指標(biāo)

03
SE-Bridge-TTS 基于 CosyVoice2 生態(tài)發(fā)布 Thai / Lao 兩個(gè)可加載 checkpoint。官方 Hugging Face model card 明確說明,這些權(quán)重是 CosyVoice2 LLM checkpoints,需要配合 CosyVoice2-compatible checkout 和標(biāo)準(zhǔn) CosyVoice2 base model assets 使用。
也就是說,這項(xiàng)工作并不是閉源大模型式的一體化發(fā)布,而是一套圍繞開源底座可復(fù)用的低資源訓(xùn)練 recipe。它先識(shí)別低資源語音合成中的 Stability-Expressivity Gap,再分別針對(duì)“有一定真實(shí)參考語音”和“幾乎沒有真實(shí)語音錨點(diǎn)”的兩類場景提出 DGSA 與 TDSC。

04
DGSA(Disentanglement-Guided Self-Alignment)適用于一種相對(duì)有利的低資源場景:目標(biāo)語言有一定真實(shí)語音,可以作為韻律參考,但數(shù)量不足以支撐大規(guī)模訓(xùn)練。
它的關(guān)鍵觀察來自 Flow-Matching SLM 的結(jié)構(gòu)解耦:Text-Speech LM 更負(fù)責(zé)內(nèi)容和韻律相關(guān)的離散 token,F(xiàn)low-Matching Transformer 則通過參考語音提取音色 embedding,維持說話人身份。換句話說,韻律和音色在結(jié)構(gòu)上存在一定分離。
利用這個(gè)解耦特性,DGSA 讓同一個(gè)模型對(duì)同一段文本和同一個(gè)參考說話人生成兩類互補(bǔ)輸出:打開 style token,得到更有表現(xiàn)力但可能更容易出錯(cuò)的語音;關(guān)閉 style token,得到更穩(wěn)定但更平坦的語音。真實(shí)語音同時(shí)具備穩(wěn)定性和表現(xiàn)力,因此可以作為偏好對(duì)齊中的正樣本。
隨后,DGSA 使用雙目標(biāo) DPO 進(jìn)行偏好對(duì)齊:一組偏好糾正表現(xiàn)力輸出中的發(fā)音錯(cuò)誤,另一組偏好糾正穩(wěn)定輸出中的韻律平坦。動(dòng)態(tài)權(quán)重調(diào)度會(huì)控制表現(xiàn)力目標(biāo)何時(shí)介入:在 α ≤ 50% 時(shí),模型尚未出現(xiàn)明顯 Synthetic Erosion,系統(tǒng)主要維持穩(wěn)定性訓(xùn)練;當(dāng) α 超過臨界點(diǎn)后,表現(xiàn)力目標(biāo)逐步被激活。
在 α = 80% 的高合成比例設(shè)置下,DGSA 的效果很直接:它保持了 SFT 基線的 WER,同時(shí)顯著恢復(fù)自然度、說話人相似度和 token 熵。相比之下,標(biāo)準(zhǔn) DPO 雖然可以提高表現(xiàn)力,但會(huì)導(dǎo)致 WER 惡化,說明單目標(biāo)偏好優(yōu)化容易犧牲發(fā)音穩(wěn)定性。

圖 2:DGSA 方法結(jié)構(gòu):利用 style token 生成互補(bǔ)候選,并用真實(shí)語音構(gòu)造偏好對(duì)

05
老撾語代表的是更難的設(shè)定:真實(shí)高質(zhì)量目標(biāo)語言語音錨點(diǎn)非常有限。此時(shí),DGSA 很難直接依賴真實(shí)語音來構(gòu)造偏好樣本。TDSC(Temperature-Driven Self-Critique)解決的正是這個(gè)問題。
TDSC 的思路是讓模型自己探索、自己篩選、自己迭代。它對(duì)每個(gè)輸入文本使用低、中、高多個(gè)采樣溫度生成候選語音:低溫度輸出更保守,發(fā)音更穩(wěn),但韻律可能更平;高溫度輸出更有探索性,韻律更豐富,但錯(cuò)誤風(fēng)險(xiǎn)更高;中溫度則提供二者之間的候選。
隨后,Judge 模塊基于 ASR、長度和重復(fù)率等自動(dòng)指標(biāo)過濾候選。通過過濾的樣本進(jìn)入 accepted set,錯(cuò)誤更高但仍滿足基礎(chǔ)約束的樣本進(jìn)入 rejected set,二者組成偏好學(xué)習(xí)數(shù)據(jù)。訓(xùn)練循環(huán)分兩步:先用 accepted samples 做 SFT,讓模型建立穩(wěn)定生成能力;再用 accepted/rejected pairs 做 DPO,讓模型學(xué)會(huì)區(qū)分好壞候選,抑制幻覺、重復(fù)和錯(cuò)誤發(fā)音。
隨著迭代推進(jìn),系統(tǒng)會(huì)逐步擴(kuò)大高溫采樣上限,讓模型先獲得發(fā)音穩(wěn)定性,再恢復(fù)韻律探索空間。在老撾語實(shí)驗(yàn)中,TDSC 從同一個(gè)純合成 SFT 基線出發(fā),將 WER 從 38.5% 降到 29.8%,重復(fù)率從 7.62% 降到 4.15%,NMOS 從 3.12 提升到 3.94。這說明 TDSC 不是簡單的推理時(shí)篩選,而是通過閉環(huán)訓(xùn)練改變了模型策略本身。

圖 3:TDSC 方法結(jié)構(gòu):多溫度采樣、自動(dòng)過濾與偏好學(xué)習(xí)閉環(huán)

06
論文在泰語和老撾語上比較了開源系統(tǒng)、商業(yè) API 和本文方法。泰語使用 DGSA,老撾語使用 TDSC;評(píng)價(jià)包括標(biāo)準(zhǔn) TTS 和 0-shot 語音克隆兩個(gè)任務(wù)。整體結(jié)果顯示,低資源語言并不只能在“發(fā)音準(zhǔn)確”和“說話自然”之間二選一:只要對(duì)合成數(shù)據(jù)帶來的分布?jí)嚎s進(jìn)行顯式建模和偏好修正,模型可以同時(shí)維持穩(wěn)定性、自然度和說話人身份。

圖 4:泰語與老撾語 低資源TTS 性能對(duì)比:
我們的方法在發(fā)音準(zhǔn)確性與語音自然度上整體優(yōu)于開源及商業(yè)系統(tǒng)
項(xiàng)目近期還新增了一個(gè)可復(fù)現(xiàn)的 FLEURS Lao/Thai benchmark,用于比較 SE-Bridge-TTS 與 Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期開放多語言 TTS 系統(tǒng)。評(píng)測覆蓋 255 組 Lao/Thai paired target sentences,并使用 Lao、Thai、Chinese、English 作為 reference prompt language。模型需要根據(jù)同樣的 target_text、prompt_audio、prompt_text、target_language_id 和 prompt_language_id 生成語音。
最緊湊的主結(jié)果,是 Chinese/English prompt → Lao/Thai target 的跨語言提示合成設(shè)置。這里的 Accuracy 來自 calibrated CER:先用 ground-truth CER 扣除 ASR 在原始 FLEURS target audio 上的識(shí)別誤差,再衡量合成語音額外帶來的退化。這樣能減少識(shí)別器本身對(duì)低資源語言不完美造成的偏差,更聚焦模型合成質(zhì)量。
指標(biāo)定義 calibrated CER = max(0, generated CER - ground-truth CER);Accuracy = 1 - calibrated CER。 |
模型 | 支持樣本 | Accuracy ↑ | Speaker similarity ↑ |
Higgs Audio v3 | 1020/1020 | 78.2% | 0.520 |
OmniVoice | 1020/1020 | 75.9% | 0.645 |
SE-Bridge-TTS | 1020/1020 | 83.4% | 0.593 |
X-Voice Stage1 | 510/1020 | 53.7% | 0.361 |
表 2:Chinese/English prompt → Lao/Thai target 的跨語言提示合成主結(jié)果
從結(jié)果看,SE-Bridge-TTS 的優(yōu)勢(shì)很清楚:在跨語言 prompt 到 Lao/Thai target 的總體 accuracy 上,SE-Bridge-TTS 為 83.4%,高于 Higgs Audio v3 的 78.2%、OmniVoice 的 75.9% 和 X-Voice Stage1 的 53.7%。在 speaker similarity 上,SE-Bridge-TTS 為 0.593,僅低于 OmniVoice 的 0.645,仍明顯高于 Higgs Audio v3 和 X-Voice Stage1。X-Voice Stage1 在該評(píng)測中的 Lao 方向不支持,覆蓋率為 510/1020;SE-Bridge-TTS 則完整覆蓋 1020/1020。
這說明 SE-Bridge-TTS 并不是只在論文原始設(shè)定里有效。即使放到近期多語言 TTS 系統(tǒng)的統(tǒng)一評(píng)測框架下,它仍然保持了很強(qiáng)的低資源語言合成能力。

07
SE-Bridge-TTS 的先進(jìn)性不只是“某個(gè)指標(biāo)更高”,而是它提供了一個(gè)低資源 TTS 可復(fù)用范式。首先,它把瓶頸放在數(shù)據(jù)分布,而不是單純模型規(guī)模。對(duì)于低資源小語種,最難的問題往往不是模型不會(huì)生成語音,而是有限真實(shí)數(shù)據(jù)和大量合成數(shù)據(jù)之間存在分布沖突。
其次,它基于開源底座完成增強(qiáng)。項(xiàng)目公開的 Thai / Lao 權(quán)重是 CosyVoice2-compatible checkpoint,推理說明也直接圍繞 CosyVoice2 展開。這降低了復(fù)現(xiàn)和遷移門檻,避免把方案綁定在不可控的閉源系統(tǒng)上。
第三,它同時(shí)覆蓋兩類低資源場景。DGSA 面向“有一定真實(shí)參考語音”的語言,TDSC 面向“真實(shí)語音錨點(diǎn)非常少”的語言。前者解決高合成比例下的表現(xiàn)力恢復(fù),后者解決純合成或近似純合成訓(xùn)練下的自改進(jìn)。
第四,它提供了完整公開資產(chǎn)。官方倉庫包含 project page、音頻 Demo、FLEURS 評(píng)測協(xié)議、結(jié)果 CSV 和 table renderer;Hugging Face 提供權(quán)重和推理說明。這讓結(jié)果不只是論文里的表格,而是可以被聽、被測、被復(fù)現(xiàn)的工程方案。
從產(chǎn)業(yè)和研究角度看,如果一個(gè)語言缺少大規(guī)模高質(zhì)量錄音,但可以獲得基礎(chǔ)文本、少量真實(shí)語音和可用 ASR,那么類似流程就有遷移空間:使用開源 TTS/SLM 底座作為初始化;用合成數(shù)據(jù)補(bǔ)足發(fā)音覆蓋;監(jiān)控合成比例帶來的穩(wěn)定性和表現(xiàn)力變化;在有真實(shí)參考時(shí)使用 DGSA 做偏好對(duì)齊;在真實(shí)語音不足時(shí)使用 TDSC 做多溫度自批判和迭代篩選。

08
多語言 TTS 的趨勢(shì)還會(huì)繼續(xù),模型也會(huì)越來越大、覆蓋越來越廣。但 SE-Bridge-TTS 提醒我們:低資源小語種真正需要的,不一定總是更大的模型,而是更懂?dāng)?shù)據(jù)分布的訓(xùn)練方案。
基于 CosyVoice2 這樣的開源底座,SE-Bridge-TTS 通過合成數(shù)據(jù) scaling、DGSA 和 TDSC,把低資源語言中的穩(wěn)定性與表現(xiàn)力矛盾拆開處理,并在新的 FLEURS Lao/Thai 評(píng)測中達(dá)到甚至超過近期多語言 TTS SOTA 的效果。
一句話概括:合成語音不只是更多數(shù)據(jù)。它能補(bǔ)足穩(wěn)定性,也會(huì)壓縮表現(xiàn)力;SE-Bridge-TTS 的價(jià)值,就是讓低資源語言模型重新學(xué)會(huì)自然地說話。

09
再次邀請(qǐng)?bào)w驗(yàn)免費(fèi)配音:https://luoji.cn/
開源項(xiàng)目 Video Translator:支持主流 AI 編程助手和 Agent 工具通過 Skill 方式快速接入,包括 Codex、Claude Code 等,也方便開發(fā)者參考實(shí)現(xiàn),遷移到更多國內(nèi)外 AI 編程工具鏈中。
項(xiàng)目地址:https://github.com/InsiderX-Pro/video-translator
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章