上海交通大学开源了 F5TTS 语音合成技术,这是一种完全非自回归的文本到语音系统,通过流匹配与扩散变换器实现。它简化了传统的 TTS 系统设计,不需要复杂的时长模型、文本编码器和音素对齐,而是将文本输入用填充标记填充到与输入语音相同的长度,并利用 ConvNeXt 模型对文本表示进行细化以与语音对齐。
F5TTS 的模型特点包括:
1. 零样本声音克隆。
2. 速度控制(基于总时长)。
3. 可以控制合成语音的情感表现。
4. 长文本合成。
5. 支持中文和英文多语言合成。
6. 在 10 万小时数据上训练。
7. 最重要的是支持商用。
相关链接:
1. 论文:
2. 模型下载:
3. 演示 Demo:https://huggingface.co/spaces/mrfakename/E2F5TTS
2024-11-01