
🚀 IndexTTS2 是哔哩哔哩(B站)语音团队在2025年9月开源的新一代零样本语音合成模型。它在自回归架构中引入了多项技术创新,显著提升了情感表达和时长控制的精准度。下面我将为你详细介绍这款模型。
🗣️ 一、核心功能与特性
IndexTTS2 首次在自回归TTS架构中引入了“时间编码”机制。用户可以通过显式设定目标token数量来实现毫秒级的语音时长控制,这对于需要严格音画同步的视频配音场景至关重要。同时,它也支持自由生成模式,以保留输入提示的原始韵律特征。
该模型的一项突破是实现了情感特征与说话人音色的解耦控制(Emotion-Speaker Disentanglement)。这意味着用户可以分别指定音色参考和情感参考,模型能在零样本条件下精准还原目标音色并完全重现指定情绪。
除了音频参考,用户还能通过自然语言描述(“软指令”)、情感向量或独立的情感参考音频等多种方式灵活调节合成语音的情感表达,大大降低了使用门槛。
模型在多项权威测试集上取得了当前最优(SOTA)性能。其主观MOS评分在情感自然度上达4.22分,情感匹配度达0.887,时长控制误差小于0.07%,证明了其生成语音的高保真度和丰富表现力。
IndexTTS2 的训练数据包含了 55,000小时的中英文双语语音数据,使其具备良好的中英文语音合成能力。
⬇ 下载链接
您需要回复本文后才能查看完整内容
原创文章,作者:两蚊回倉,如若转载,请注明出处:https://www.fanai.asia/archives/174.html