目前有多种具备语音对话功能的 AI 技术和应用。
OpenAI 在语音对话方面,通过更换 prompt 让 GPT 尽量生成短内容,不轻易生成列表和代码,语音合成用 TTS API,识别用 whisper API。其方法论追求大的通用模型,避免定制和特化,将精力集中在模型研发上。
在游戏领域,生成式 AI 带来了语音方面的变革。借助生成性 AI 对话,游戏角色可以说任何话,完全响应玩家正在做的事情。结合更智能的 NPC AI 模型,完全对玩家作出反应的游戏将很快成为现实。此外,还能使用与玩家虚拟形象匹配的生成声音维持角色扮演的幻觉,控制声音的细微差别,实现对话的本地化翻译和发音。
在音频方面,有众多公司致力于为游戏角色创造逼真的语音,如 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等。同时,也有很多公司试图创建由 AI 生成的音乐,例如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva 等。
GPTs怎么做的?其实很大程度就是OpenAI的Assistant API加个简单得有点简陋的前端。(PS:现在有了OpenAI Assistant API后,你发现加个UI就可以很轻松的复刻OpenAI上线的大部分功能。)那么语音对话呢?你会发现就是换了一个prompt,告诉GPT尽量生成短的内容,不要轻易生成列表和代码。语音合成用TTS API,识别用whisper API(可能有针对上下文的优化),结束。这些选择看上去非常暴力,而且会给OpenAI增加开销(长的prompt会明显增大开销),但是OpenAI仍然选择这么做,因为这让OpenAI将大部分精力都花在模型本身的研发上,同时这也是OpenAI的方法论的极致体现,我们下面会提到。这种方法论让OpenAI追求一个大的通用的模型,避免一切定制和特化,就像最近Sam说的一样,希望GPT-5的出现能让模型微调失去意义;这样OpenAI就变成了完完全全的SaaS服务。
实时生成对话。游戏中的语音通常是由配音演员预先录制的,但这些都局限于预录制的固定语句。借助生成性AI对话,角色可以说任何话——这意味着他们可以完全响应玩家正在做的事情。结合更智能的NPC AI模型(虽然不在本博客的讨论范围内,但目前同样是一个令人兴奋的创新领域),完全对玩家作出反应的游戏将很快成为现实。角色扮演。许多玩家希望扮演与他们现实世界身份相去甚远的幻想角色。然而,一旦玩家用自己的声音发言,这种幻觉就会破裂。使用与玩家的虚拟形象匹配的生成声音可以维持这种幻觉。控制。由于语音是生成的,你可以控制声音的细微差别,比如它的音色、抑扬、情感共鸣、音素长度、口音等等。本地化。允许对话被翻译成任何语言,并以相同的声音发音。像[Deepdub](https://deepdub.ai/)这样的公司专注于这个特定的领域。
自适应音乐在游戏音频中已经是一个话题超过二十年,可以追溯到微软的“[DirectMusic](https://en.wikipedia.org/wiki/DirectMusic)”系统,用于创建交互式音乐。DirectMusic从未得到广泛的采用,主要是因为使用该格式进行作曲的难度较大。只有少数几个游戏,比如Monolith的[No One Lives Forever](https://www.iasig.org/index.php/resources/resources-menu/20-aan-no-one-lives-forever),创建了真正的交互式音乐。现在我们看到有很多公司试图创建由AI生成的音乐,例如[Soundful](https://soundful.com/)、[Musico](https://www.musi-co.com/)、[Harmonai](https://www.harmonai.org/)、[Infinite Album](https://www.infinitealbum.io/)和[Aiva](https://www.aiva.ai/)。虽然今天的一些工具,比如Open AI的[Jukebox](https://openai.com/blog/jukebox/),在计算上非常密集,无法实时运行,但大多数工具在初始模型建立完成后可以实时运行。语音和对话有大量的公司试图为游戏角色创造逼真的语音。鉴于长期以来一直试图通过语音合成技术赋予计算机语音的努力,这并不奇怪。这些公司包括[Sonantic](https://www.sonantic.io/)、[Coqui](https://coqui.ai/)、[Replica Studios](https://replicastudios.com/)、[Resemble.ai](https://www.resemble.ai/)、[Readspeaker.ai](https://www.readspeaker.ai/)等众多公司。使用生成性AI进行语音合成有多个优势,这在一定程度上解释了为什么这个领域如此拥挤。