以下是一些在语音对话方面表现较强的 AI 模型:
在游戏中的语音对话方面,生成式 AI 对话使得角色可以说任何话,完全响应玩家正在做的事情。结合更智能的 NPC AI 模型,完全对玩家作出反应的游戏将很快成为现实。例如,使用与玩家的虚拟形象匹配的生成声音可以维持角色扮演的幻觉,还可以控制声音的细微差别,以及实现对话的本地化。像 Deepdub 这样的公司专注于这个特定的领域。
下表为智谱AI开源的语言模型列表|模型|介绍|上下文token数|代码链接|模型权重下载链接||-|-|-|-|-||ChatGLM2-6B|第二代ChatGLM对话模型。相比一代模型,具有更强的性能,且其基座模型的上下文长度从2k扩展到32k,并在对话阶段使用8K的上下文长度训练。推理速度相比初代提升42%。|8K|[ChatGLM2](https://github.com/THUDM/ChatGLM2-6B)|[Huggingface](https://huggingface.co/THUDM/chatglm2-6b)|魔搭社区|始智社区|启智社区||ChatGLM2-6B-int4|ChatGLM2-6B的int4量化版本,具备最小5.1GB显存即可运行。INT4量化下,6G显存支持的对话长度由1K提升到了8K。|8K||[Huggingface](https://huggingface.co/THUDM/chatglm2-6b-int4)[](https://huggingface.co/THUDM/chatglm2-6b-int4)|魔搭社区|始智社区|启智社区|
实时生成对话。游戏中的语音通常是由配音演员预先录制的,但这些都局限于预录制的固定语句。借助生成性AI对话,角色可以说任何话——这意味着他们可以完全响应玩家正在做的事情。结合更智能的NPC AI模型(虽然不在本博客的讨论范围内,但目前同样是一个令人兴奋的创新领域),完全对玩家作出反应的游戏将很快成为现实。角色扮演。许多玩家希望扮演与他们现实世界身份相去甚远的幻想角色。然而,一旦玩家用自己的声音发言,这种幻觉就会破裂。使用与玩家的虚拟形象匹配的生成声音可以维持这种幻觉。控制。由于语音是生成的,你可以控制声音的细微差别,比如它的音色、抑扬、情感共鸣、音素长度、口音等等。本地化。允许对话被翻译成任何语言,并以相同的声音发音。像[Deepdub](https://deepdub.ai/)这样的公司专注于这个特定的领域。
本质是对自身的恐惧,担心被更聪明的事物替代。对AI的恐惧源于人类对自身“恶性”的认知,担心AI继承类似人性缺陷。?[https://x.com/imxiaohu/status/1853714753660801303](https://x.com/imxiaohu/status/1853714753660801303)4⃣️?Hertz-dev开源会话音频模型:实时对话:双向交流,无需等待对方讲完。超低延迟:120毫秒延迟,几乎实时互动。高效压缩:占用带宽少,音质优秀,支持长对话生成。?完整内容:[https://xiaohu.ai/p/15263](https://xiaohu.ai/p/15263)?GitHub:[https://github.com/Standard-Intelligence/hertz-dev](https://github.com/Standard-Intelligence/hertz-dev)5⃣️?腾讯混元-3D:快速高分辨率3D模型生成文本到3D:支持通过文字描述生成3D模型。图像到3D:可重建多尺度物体,包含网格与纹理。高效生成:10秒内完成整个过程。?详细介绍:[https://xiaohu.ai/p/15268](https://xiaohu.ai/p/15268)6⃣️?苹果在iOS 18.2中新增ChatGPT限额提醒:引导用户订阅:每日配额后,未订阅用户将无法通过Siri查询复杂问题。不清楚苹果是否会从订阅中抽成。