MetaVoice-1B 是一款创新的文本到语音转换模型,采用了最先进的技术,通过1.2亿个参数和超过10万小时的语音数据训练,提供了高度真实和自然的语音输出。
软件功能
- 专注英语情感演讲: MetaVoice-1B专注于提供流畅且自然的英语情感语音输出,为用户带来无幻觉现象的真实体验。
- 跨语言语音克隆: 支持跨语言的声音克隆,能够通过微调实现,即使是仅需1分钟的训练数据。
- 零样本克隆: 对于美国和英国声音,MetaVoice能够实现零样本克隆,仅需30秒的参考音频。
- 支持长篇内容语音合成: 适用于长篇内容的语音合成,无论是书籍、文章还是报告,都能高效合成。
主要特点
- 情感语音节奏和音调: 专注于英语语音的情感表达,提供自然、流畅的语音输出。
- 跨语言语音克隆: 实现跨语言的声音克隆,为不同语言背景的用户提供个性化服务。
- 零样本克隆: 实现对美国和英国声音的零样本克隆,易于使用。
- 长篇朗读支持: 支持长篇内容的语音合成,满足多种应用场景需求。
工作原理
- 因果GPT预测: 使用因果GPT模型处理文本和生成语音,保证语音的准确性和自然性。
- 说话者信息的条件化传递: 在令牌嵌入层加入说话者信息,使生成的语音模仿特定的说话者。
- 非因果变压器预测剩余层次: 使用非因果变压器模型预测EnCodec令牌的剩余层次,提高语音生成的效率和准确性。
- 多带扩散生成波形: 采用多带扩散技术将EnCodec令牌转换成波形,提升音质。
- DeepFilterNet清理背景噪声: 使用DeepFilterNet清除背景噪声,使生成的语音更清晰自然。
下载地址
- 模型下载:访问Hugging Face
- GitHub:访问GitHub
- 在线体验:试用MetaVoice
MetaVoice-1B通过其高度真实和自然的语音输出,跨语言克隆能力以及对长篇内容的支持,为用户提供了前所未有的文本到语音转换体验。