Chat with Wiki - spark tts

Answer

Spark-TTS 是基于 Qwen2.5 的高效文本转语音（TTS）系统，具有以下特点：

超越现有 TTS，结合 Qwen2.5 进行端到端生成。
支持细粒度语音控制，包括性别、音调、语速等自定义参数。
具备零样本语音克隆功能，无需目标声音样本，即可生成个性化高质量声音。
采用 BiCodec 编码架构，简化流程，提高推理效率。
与 Qwen2.5 LLM 集成，可直接通过 LLM 处理 TTS 任务，无需额外声学模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

?Xiaohu.AI日报「3月6日」✨✨✨✨✨✨✨✨1⃣️?腾讯发布HunyuanVideo-I2V：图像到视频生成模型精准语义理解：结合文本描述和图像信息，使生成视频符合用户需求。高一致性：确保视频首帧与输入图片高度一致，避免失真或风格变化。自然动态过渡：支持人物、风景、物体的流畅动态演绎。最高支持720P视频，并支持LoRA训练，可定制特殊视频特效，如头发生长、物体变形、角色动态增强。?详细内容：[https://xiaohu.ai/c/xiaohu-ai/hunyuanvideo-i2v](https://xiaohu.ai/c/xiaohu-ai/hunyuanvideo-i2v)[https://x.com/imxiaohu/status/1897643188304957623](https://x.com/imxiaohu/status/1897643188304957623)2⃣️?️Spark-TTS：基于Qwen2.5的高效文本转语音（TTS）系统超越现有TTS，结合Qwen2.5进行端到端生成。细粒度语音控制：支持性别、音调、语速等自定义参数。零样本语音克隆：无需目标声音样本，即可生成个性化高质量声音。BiCodec编码架构：简化流程，提高推理效率。与Qwen2.5 LLM集成：可直接通过LLM处理TTS任务，无需额外声学模型。

XiaoHu.AI日报

5⃣?Runway Gen-3 Alpha文本到视频模型已开放功能：所有人可使用传送门：https://runwayml.com/?详细使用教程：https://xiaohu.ai/p/10762?https://x.com/imxiaohu/status/18079171464309231166⃣?腾讯翻译智能体公司上线了名称：TRANSAGENTS功能：文学翻译的多智能体虚拟翻译出版公司体验链接：http://transagents.ai?https://x.com/imxiaohu/status/18080669274259993547⃣?SuperAnimal：自动检测和分析动物运动行为的模型开发：由洛桑联邦理工学院（EPFL）团队开发功能：自动识别和跟踪45种以上动物的关键点运动，无需人工注释?https://x.com/imxiaohu/status/18081316326349455618⃣?Fish Speech：完美支持中英日语言的开源TTS模型语音处理：接近人类水平训练数据：约十五万小时三语数据，对中文支持完美开发者：fishaudio特点：亿级参数，高效轻量，可在个人设备上运行和微调，适合作为私人语音助手?详细介绍及更多演示：https://xiaohu.ai/p/10779?GitHub：https://github.com/fishaudio/fish-speech?https://x.com/imxiaohu/status/18081780063154384679⃣?Suno推出了iOS客户端

Stuart：一夜爆火的 ChatTTS 实测

作者：许键StuartChatTTS一夜爆火，极速出圈，3天就斩获9k的Star量，截止2024.06.03，已经16.6k的star，极速接近GPT-soVITs当天的26.2k的star数。到底有什么魔力让它火爆的速度直追它的前辈？优势：真实度和自然度很惊艳更好的韵律:能生成接近真人音色的语气语调这个TTS应该是目前对中文支持最好的了中英混合也没问题细粒度控制:能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等自然流畅的语音合成，同时支持多说话人同时提供预训练模型劣势：当前推理速度慢，无法应用在实时语音场景。用在离线场景，需要大量的后期修正工作。对于阿拉伯数字，标点符号，refine后效果不太好有时候会出现不稳定，自动删除或者增加一些内容在句子里比如输入的内容是“你吃饭了没”，会莫名把句子改写一下变成了，“好吃，你吃饭了没”这种情况读绕口令也有人的那种卡顿（效果不稳定）