Chat with Wiki - 可以语音对话的ai工具有哪些

Answer

以下是一些可以语音对话的 AI 工具：

OpenAI 旗下的相关工具，如 GPT ，通过特定的 prompt 设定可实现语音对话，语音合成用 TTS API ，识别用 whisper API 。
11labs ，可用于进行对白制作，但其在情绪和情感的表现上可能存在一定局限。

此外，还有众多公司致力于语音相关的技术和工具开发，例如：

在语音合成方面，有 Sonantic 、 Coqui 、 Replica Studios 、 Resemble.ai 、 Readspeaker.ai 等。
在音乐生成方面，有 Soundful 、 Musico 、 Harmonai 、 Infinite Album 、 Aiva 等。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

OpenAI直接用prompt让GPT-4调用bio这个工具记录需要记忆的内容（「to=xxx」是调用内部工具的语法，比如"to=python"是GPT调用code interpreter的方式）。然后每次新的对话开始时，在prompt的最后直接加上所有之前的记录的内容（## Model Set Context）。就是这么简单粗暴。GPTs怎么做的？其实很大程度就是OpenAI的Assistant API加个简单得有点简陋的前端。（PS：现在有了OpenAI Assistant API后，你发现加个UI就可以很轻松的复刻OpenAI上线的大部分功能。）那么语音对话呢？你会发现就是换了一个prompt，告诉GPT尽量生成短的内容，不要轻易生成列表和代码。语音合成用TTS API，识别用whisper API（可能有针对上下文的优化），结束。这些选择看上去非常暴力，而且会给OpenAI增加开销（长的prompt会明显增大开销），但是OpenAI仍然选择这么做，因为这让OpenAI将大部分精力都花在模型本身的研发上，同时这也是OpenAI的方法论的极致体现，我们下面会提到。这种方法论让OpenAI追求一个大的通用的模型，避免一切定制和特化，就像最近Sam说的一样，希望GPT-5的出现能让模型微调失去意义；这样OpenAI就变成了完完全全的SaaS服务。

游戏中的生成式 AI 革命

现在我们看到有很多公司试图创建由AI生成的音乐，例如[Soundful](https://soundful.com/)、[Musico](https://www.musi-co.com/)、[Harmonai](https://www.harmonai.org/)、[Infinite Album](https://www.infinitealbum.io/)和[Aiva](https://www.aiva.ai/)。虽然今天的一些工具，比如Open AI的[Jukebox](https://openai.com/blog/jukebox/)，在计算上非常密集，无法实时运行，但大多数工具在初始模型建立完成后可以实时运行。语音和对话有大量的公司试图为游戏角色创造逼真的语音。鉴于长期以来一直试图通过语音合成技术赋予计算机语音的努力，这并不奇怪。这些公司包括[Sonantic](https://www.sonantic.io/)、[Coqui](https://coqui.ai/)、[Replica Studios](https://replicastudios.com/)、[Resemble.ai](https://www.resemble.ai/)、[Readspeaker.ai](https://www.readspeaker.ai/)等众多公司。使用生成性AI进行语音合成有多个优势，这在一定程度上解释了为什么这个领域如此拥挤。

前Sora时代我最想做的AI短片——使用Pika、Pixverse、Runway、SVD四大AI视频工具

需要人物表情比较自然的画面我们就会用Pika来生成。总之就是，办法总比困难多，想尽一切招数，解决问题。这里本来可以对应介绍一些视听语言的书，但篇幅实在太长了目前，下次再推荐！第四步，AI声音这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里，声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文，但我英语比较拉垮，所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色，形成配音稿。接着使用AI声音软件11labs（官网：https://elevenlabs.io/）进行对白制作，11labs的英文效果比较好，但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。跟视频制作类似，需要不断地抽卡（反复生成），因为11labs无法使用语速、情绪调节等控件，我们只能通过标点符号去改变语音效果，比如使用，、……。！等等标点符号，有时会叠加不同标点符号，去试它的语音效果。