Chat with Wiki - 有没有语音对话的AI

Answer

目前有多种具备语音对话功能的 AI 技术和应用。

OpenAI 在语音对话方面，通过更换 prompt 让 GPT 尽量生成短内容，不轻易生成列表和代码，语音合成用 TTS API，识别用 whisper API。其方法论追求大的通用模型，避免定制和特化，将精力集中在模型研发上。

在游戏领域，生成式 AI 带来了语音方面的变革。借助生成性 AI 对话，游戏角色可以说任何话，完全响应玩家正在做的事情。结合更智能的 NPC AI 模型，完全对玩家作出反应的游戏将很快成为现实。此外，还能使用与玩家虚拟形象匹配的生成声音维持角色扮演的幻觉，控制声音的细微差别，实现对话的本地化翻译和发音。

在音频方面，有众多公司致力于为游戏角色创造逼真的语音，如 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等。同时，也有很多公司试图创建由 AI 生成的音乐，例如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva 等。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

GPTs怎么做的？其实很大程度就是OpenAI的Assistant API加个简单得有点简陋的前端。（PS：现在有了OpenAI Assistant API后，你发现加个UI就可以很轻松的复刻OpenAI上线的大部分功能。）那么语音对话呢？你会发现就是换了一个prompt，告诉GPT尽量生成短的内容，不要轻易生成列表和代码。语音合成用TTS API，识别用whisper API（可能有针对上下文的优化），结束。这些选择看上去非常暴力，而且会给OpenAI增加开销（长的prompt会明显增大开销），但是OpenAI仍然选择这么做，因为这让OpenAI将大部分精力都花在模型本身的研发上，同时这也是OpenAI的方法论的极致体现，我们下面会提到。这种方法论让OpenAI追求一个大的通用的模型，避免一切定制和特化，就像最近Sam说的一样，希望GPT-5的出现能让模型微调失去意义；这样OpenAI就变成了完完全全的SaaS服务。

游戏中的生成式 AI 革命

实时生成对话。游戏中的语音通常是由配音演员预先录制的，但这些都局限于预录制的固定语句。借助生成性AI对话，角色可以说任何话——这意味着他们可以完全响应玩家正在做的事情。结合更智能的NPC AI模型（虽然不在本博客的讨论范围内，但目前同样是一个令人兴奋的创新领域），完全对玩家作出反应的游戏将很快成为现实。角色扮演。许多玩家希望扮演与他们现实世界身份相去甚远的幻想角色。然而，一旦玩家用自己的声音发言，这种幻觉就会破裂。使用与玩家的虚拟形象匹配的生成声音可以维持这种幻觉。控制。由于语音是生成的，你可以控制声音的细微差别，比如它的音色、抑扬、情感共鸣、音素长度、口音等等。本地化。允许对话被翻译成任何语言，并以相同的声音发音。像[Deepdub](https://deepdub.ai/)这样的公司专注于这个特定的领域。

游戏中的生成式 AI 革命

自适应音乐在游戏音频中已经是一个话题超过二十年，可以追溯到微软的“[DirectMusic](https://en.wikipedia.org/wiki/DirectMusic)”系统，用于创建交互式音乐。DirectMusic从未得到广泛的采用，主要是因为使用该格式进行作曲的难度较大。只有少数几个游戏，比如Monolith的[No One Lives Forever](https://www.iasig.org/index.php/resources/resources-menu/20-aan-no-one-lives-forever)，创建了真正的交互式音乐。现在我们看到有很多公司试图创建由AI生成的音乐，例如[Soundful](https://soundful.com/)、[Musico](https://www.musi-co.com/)、[Harmonai](https://www.harmonai.org/)、[Infinite Album](https://www.infinitealbum.io/)和[Aiva](https://www.aiva.ai/)。虽然今天的一些工具，比如Open AI的[Jukebox](https://openai.com/blog/jukebox/)，在计算上非常密集，无法实时运行，但大多数工具在初始模型建立完成后可以实时运行。语音和对话有大量的公司试图为游戏角色创造逼真的语音。鉴于长期以来一直试图通过语音合成技术赋予计算机语音的努力，这并不奇怪。这些公司包括[Sonantic](https://www.sonantic.io/)、[Coqui](https://coqui.ai/)、[Replica Studios](https://replicastudios.com/)、[Resemble.ai](https://www.resemble.ai/)、[Readspeaker.ai](https://www.readspeaker.ai/)等众多公司。使用生成性AI进行语音合成有多个优势，这在一定程度上解释了为什么这个领域如此拥挤。