与知识库对话 - 文字转语音

回答

文字转语音方面：

算法驱动的数字人中，TTS（Text to Speech，文字转语音）是其中一个核心算法。数字人依靠 LLM 生成的输出是文字，为了保持语音交互一致性，需要将文字转换为语音。
在 Hedra 工具中，可以直接进行文字转语音，目前有 6 个语音，也可以直接上传音频。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

这类数字人强调自驱动，人为干预更少，技术实现上更加复杂，一个最简单的算法驱动的数字人大致流程如下：其中三个核心算法分别是：1.ASR(Automatic Speech Recognition，语音识别)：我们希望和数字人的交互跟人一样以对话为主，所以算法驱动的第一步就是语音识别，它能将用户的音频数据转化为文字，便于数字人理解和生成回应。2.AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech，文字转语音）：数字人依靠LLM生成的输出是文字，为了保持语音交互一致性，需要将文字转换为语音，由数字人。

工具教程：Hedra

hedra.com放出了基础模型Character-1的研究预览版。即日起在http://hedra.com（桌面和移动）上提供。*无限期（打开预览为30秒）*每60秒产生90个（如果H100的供应保持不变）*富有表现力的说话、唱歌、说唱角色Hedra的使命是建立一个人人都能使用的多模态创作工作室，让创作者完全控制情感对话、动作和（是的）整个世界，这是Hedra迈出的第一步。[41997_1718734567.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/GiakbqPTWobAnAx0yiMcb6aindf?allow_redirect=1)作者说：关于图像比例问题，之后我们就支持多比例了，目前还是关注在人脸的区域，所以锁定了1:1，后续会支持不同分辨率输入，以及整个人体。我们目前对用户的输入crop并没有限制的特别死，但是人脸占比越大效果越清晰，越好。而且目前是一个快速版，主打生成速度更快，90s能够生成60s视频（H100）；之后也会提供更高质量的版本[heading2]操作教程[content]可以直接文字转语音，目前有6个语音也可以直接上传音频

工具教程：Hedra