0
5 月 9 日,全球權威 TTS 評測榜單 Artificial Analysis Speech Arena Leaderboard 更新,階躍語音生成模型 StepAudio 2.5 TTS 躋身全球前三,成為當前榜單排名最高的中國大模型。

不同于傳統實驗室指標,該榜單采用盲測 Elo 評分機制,由用戶在不知道模型身份的情況下,直接對同一文本生成的兩段語音進行聽感判斷,測試覆蓋客戶服務、知識分享、數字助手、娛樂等真實應用場景。這意味著,StepAudio 2.5 TTS 的領先并不只是參數或指標上的提升,而是在真實用戶聽感中展現出更自然、更接近真人表達的能力,在實際落地中具備更強競爭力。
據了解,階躍近期集中發布 StepAudio 2.5 系列模型,包括 TTS、ASR 和 Realtime 三款模型,覆蓋語音生成、語音識別與實時語音交互全鏈路。其中,StepAudio 2.5 TTS 面向高自然度語音生成,StepAudio 2.5 ASR 主打高速高精度識別,就在昨日 StepAudio 2.5 Realtime 也火速上線,聚焦打造更有“活人感”的 AI 聊天搭子,具備頂級副語言能力、千萬人設自定義、領先智商情商等特點,強調帶來“有溫度、有靈魂、有態度”的實時語音交互體驗。
AI 語音模型一直被行業視為實現人機交互的核心入口,包括 OpenAI、Google 等全球頂尖科技公司均在長期且高強度投入。記者觀察到,階躍在 AI 語音領域已進行長期深度布局:開源原生推理語音模型 Step Audio R1.1 已連續 4 個月霸榜 Artificial Analysis Speech Reasoning,目前仍位于全球第一;開源全球首個迭代式情緒風格語音編輯模型 Step Audio EditX,該模型為 zero-shot TTS,僅用 3s 復刻的音色效果可打敗許多閉源 TTS 模型主音色;目前位列 Artificial Analysis Speech Arena Leaderboard 開源榜全球第二。
|
|
在商業化方面,階躍語音模型已在多個核心終端場景實現規模化商業落地。比如搭載吉利銀河 M9,階躍率先實現端到端語音大模型量產上車;為整車智能體超級 Eva 提供語音交互能力,首發搭載極氪 8X 也已實現量產上市。