Speech-02— MiniMax 推出的新一代文本转语音模型

2025-05-17 12 权重导航网

Speech-02是什么

speech-02是miniMAx发布的新一代文本转语音（TTs）模型。该模型采用回归transformer架构，实现了零样本语音克隆功能，只需几秒钟的参考语音即可生成高度相似的目标语音。flow-vae架构进一步提升了语音生成的信息表达能力，提高了合成语音的质量和相似度。speech-02提供两个版本：speech-02-hd专为高保真需求设计，例如配音和有声书，能够解决节奏不一致的问题，保持音质清晰；而speech-02-turbo则针对实时性能进行了优化，在保证低延迟的同时提供出色的音质，适合交互式应用场景。speech-02现已在minimax audio平台以及minimax api平台上推出。

Speech-02的主要特点

零样本语音克隆：仅需几秒的参考语音，就能生成高度相似的目标语音。
高品质语音合成：生成自然流畅的语音，支持多种语言和方言。
多语言支持：支持32种语言，特别擅长中文、英文和粤语等，可以轻松实现跨语言转换。
个性化语音生成：用户上传示例音频，模型学习后可生成个性化的语音。
情感调控：依据文字描述调整语音的情感，如快乐、悲伤等，以指导语音生成。

Speech-02的技术基础

自回归Transformer架构：基于自回归Transformer架构构建，生成的语音具有更好的韵律、语调和整体自然度。自回归模型在生成过程中逐帧生成语音特征，从而确保生成的语音更加自然且连贯。
零样本语音克隆：通过引入可学习的说话人编码器，该编码器专注于提取合成语音中最相关的发声特性，如说话者的独特发音习惯。模型仅需几秒的参考语音即可生成高度相似的目标语音。
Flow-VAE架构：利用可逆映射变换潜在空间，更精准地捕捉数据中的复杂模式。Flow-VAE架构增强了语音生成过程中的信息表达能力，显著提升了合成语音的整体质量和相似度。
T2V框架：结合开放式的自然语言描述与结构化标签信息，实现高度灵活且可控的音色生成。用户可根据文字描述引导模型生成特定音色和情感的语音。