Chat with Wiki - AI语聊，音频部分一般有什么工具

Answer

以下是一些常见的用于 AI 语聊音频部分的工具：

11labs：官网为 https://elevenlabs.io/ ，英文效果较好，但无法使用语速、情绪调节等控件，只能通过标点符号改变语音效果，抽声音卡有一定难度。
魔音工坊：国内工具，可以使用情绪调节控件。
Speechify：https://speechify.com/ ，人工智能驱动的文本转语音工具，可作为多种平台应用使用。
Azure AI Speech Studio：https://speech.microsoft.com/portal ，提供支持 100 多种语言和方言的语音转文本和文本转语音功能，还提供自定义语音模型。
Voicemaker：https://voicemaker.in/ ，可将文本转换为各种区域语言的语音，并允许创建自定义语音模型。

此外，在音频领域，配音员水平的 AI 已经成熟，对于一般商业场景足够。当有了多模态理解能力之后，带有感情的对话能力也会在 2024 年有突破。在 AI 陪聊场景中，人脸动作的细致刻画、人物微动作、低成本生成符合聊天内容的插画、加了特定感情输出的对话、真实的背景音与烘托感情的配乐等方面都会在 2024 年内逐步成熟。

Content generated by AI large model, please carefully verify (powered by aily)

References

前Sora时代我最想做的AI短片——使用Pika、Pixverse、Runway、SVD四大AI视频工具

这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里，声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文，但我英语比较拉垮，所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色，形成配音稿。接着使用AI声音软件11labs（官网：https://elevenlabs.io/）进行对白制作，11labs的英文效果比较好，但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。跟视频制作类似，需要不断地抽卡（反复生成），因为11labs无法使用语速、情绪调节等控件，我们只能通过标点符号去改变语音效果，比如使用，、……。！等等标点符号，有时会叠加不同标点符号，去试它的语音效果。同一句台词，大家可以听出不同标点和抽不同卡时，声音的情绪都不太一样，所以要在AI声音里调试到合适的声音，抽声音卡的难度其实并不亚于抽视频的难度……我们常常一句台词要生成十几二十段音频，才能找到稍微能听得过去的、自然的声音。国内的可以使用出门问问的魔音工坊。魔音工坊可以使用情绪调节控件，还比较友好，但具体的评测还得等我们有机会做中文短片再试试！第五步，剪辑上篇剪辑没有多说，这次我会多说一些。目前大部分AI短片的创作者用的都是剪映，我也是，因为短片1-3分钟，用剪映其实会比传统剪辑软件更方便一些。但更长的篇幅，比如可能到5-10分钟，或者10分钟以上，要更好的效果的话，还是避免不了可能要用PR/FCP/达芬奇等等传统剪辑软件。

问：推荐一下在线 TTS 工具

Text to Speech（TTS）是一种人机交互技术，它将文本转换为自然的语音输出。通过TTS技术，计算机可以通过模拟人类的语音来与用户进行交互，实现语音提示、语音导航、有声读物等功能。TTS技术在智能语音助手、语音识别、语音合成等领域广泛应用。在WaytoAGI的工具网站上有一系列推荐：https://www.waytoagi.com/sites/category/50以下是几个是编辑精选的工具：1.Eleven Labs：https://elevenlabs.io/ElevenLabs Prime Voice AI是一款功能强大且多功能的AI语音软件，使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化，并能够根据上下文调整表达方式。1.Speechify：https://speechify.com/Speechify是一款人工智能驱动的文本转语音工具，使用户能够将文本转换为音频文件。它可作为Chrome扩展、Mac应用程序、iOS和Android应用程序使用，可用于收听网页、文档、PDF和有声读物。1.Azure AI Speech Studio：https://speech.microsoft.com/portalMicrosoft Azure Speech Studio是一套服务，它赋予应用程序能力，让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持100多种语言和方言的语音转文本和文本转语音功能。此外，它还提供了自定义的语音模型，这些模型能够适应特定领域的术语、背景噪声以及不同的口音。1.Voicemaker：https://voicemaker.in/AI工具可将文本转换为各种区域语言的语音，并允许您创建自定义语音模型。Voicemaker易于使用，非常适合为视频制作画外音或帮助视障人士。内容由AI大模型生成，请仔细甄别。

AGI 万字长文（下）| 2024，分叉与洪流

在音频领域，配音员水平的AI已经成熟，对于一般商业场景已经足够。当有了多模态理解能力之后，带有感情的对话能力也会在2024年有突破。对于AI陪聊这个场景，音频的重要性甚至大于视觉：走心的男/女朋友才能长久；走肾的只能一晚一换。当然，从做产品的角度来看，直接抓AGI是没法抓的，更实在的是具体商用能力的提升。比如，在AI陪聊的赛道上有：人脸动作的细致刻画（如近期的Pika Lip Sync），人物微动作（拥抱、牵手、亲吻等），低成本生成符合聊天内容的插画、加了“撒娇耍赖卖萌撩人”感情输出的对话、真实的背景音与烘托感情的配乐……这些都会在2024年内逐步成熟。"Sinking",Yifei Gong 2024,with Dall-E1.3虚拟人与虚拟世界当我们看到上面一系列技术的可能性的时候，自然的问题就来了：真-虚拟人马上就要出现了吗？以及，这意味着什么？首先，如果放在3-5年的时间轴上，具有可以模仿人类感情、甚至有独立性格的虚拟人出现是大概率事件。但如果只看2024年，概率应该并不大；这是因为有几个核心技术问题目前还没有看到解决的思路：1)记忆问题可能比想象得更加复杂，因为“记忆”同时也是“有选择的遗忘”和“特定触发下的浮现”，但这些机制目前还隐藏于“大脑”这个黑盒里；以及，我们除了寄希望于“另一个黑盒”大语言模型自我“涌现”出这样的能力之外，似乎还没有直接教会的方法；这让解决问题的不确定性变得非常高。

AI语聊，音频部分 一般有什么工具

Answer

References

AI语聊，音频部分一般有什么工具