与知识库对话 - 语音模型

回答

以下为您介绍一些语音模型：

阿里云最新开源模型——FunAudioLLM：
- 可以实现语音翻译、情感语音聊天、交互式播客、有声读物叙述等应用。
- 核心是两个创新模型：用于高精度多语言语音识别、情感识别和音频事件检测的 SenseVoice ；以及用于多语言、音色和情感控制的自然语音生成的 CosyVoice。
- FunAudioLLM 主页：https://fun-audio-llm.github.io/
- CosyVoice 开源地址：https://github.com/FunAudioLLM/CosyVoice
- SenseVoice 开源地址：https://github.com/FunAudioLLM/SenseVoice
智谱·AI 开源模型列表：
- Chat 模型： |模型|介绍|上下文 token 数|代码链接|模型权重下载链接| |-|-|-|-|-| |ChatGLM-6B-int4|ChatGLM-6B 的 Int4 版本。最低只需 6GB 显存即可部署，最低只需 7GB 显存即可启动微调（P-Tuning v2）|2K||Huggingface|魔搭社区|始智社区|启智社区| |ChatGLM-6B-int8|ChatGLM-6B 的 Int8 版本|2K||Huggingface|魔搭社区|始智社区|启智社区| |AgentLM-7B|1. 提出了一种 AgentTuning 的方法；2. 开源了包含 1866 个高质量交互、6 个多样化的真实场景任务的 Agent 数据集 AgentInstruct；3. 基于上述方法和数据集，利用 Llama2 微调了具备超强 Agent 能力的 AgentLM-7B、AgentLM-13B、AgentLM-70B。|4K|AgentTuning|?Huggingface Repo| |AgentLM-13B||4K||?Huggingface Repo| |AgentLM-70B||8K||?Huggingface Repo|
OpenAI 春季发布会：GPT-4o：
- 在 GPT-4o 之前，使用语音模式与 ChatGPT 交谈，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。语音模式由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、歌声或表达情感。
- 借助 GPT-4o，在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是第一个结合了所有这些模式的模型，所以仍只是在探索该模型可以做什么及其局限性的表面。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[title]阿里云最新开源模型——FunAudioLLMFunAudioLLM可以实现语音翻译、情感语音聊天、交互式播客、有声读物叙述等应用。核心是两个创新模型：用于高精度多语言语音识别、情感识别和音频事件检测的SenseVoice ；以及用于多语言、音色和情感控制的自然语音生成的CosyVoice。FunAudioLLM主页：https://fun-audio-llm.github.io/CosyVoice开源地址：https://github.com/FunAudioLLM/CosyVoiceSenseVoice开源地址：https://github.com/FunAudioLLM/SenseVoice

智谱·AI 开源模型列表

[title]智谱·AI开源模型列表[heading2]Chat模型��语言模型列表|模型|介绍|上下文token数|代码链接|模型权重下载链接| |-|-|-|-|-| |ChatGLM-6B-int4|ChatGLM-6B的Int4版本。最低只需6GB显存即可部署，最低只需7GB显存即可启动微调（[P-Tuning v2](https://github.com/THUDM/P-tuning-v2)）|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int4)|魔搭社区|始智社区|启智社区| |ChatGLM-6B-int8|ChatGLM-6B的Int8版本|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int8)|魔搭社区|始智社区|启智社区| |AgentLM-7B|1.我们提出了一种AgentTuning的方法；2.我们开源了包含1866个高质量交互、6个多样化的真实场景任务的Agent数据集AgentInstruct3.基于上述方法和数据集，我们利用Llama2微调了具备超强Agent能力的AgentLM-7B、AgentLM-13B、AgentLM-70B。|4K|[AgentTuning](https://github.com/THUDM/AgentTuning)|[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-7b)| |AgentLM-13B||4K||[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-13b)| |AgentLM-70B||8K||[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-70b)|

OpenAI 春季发布会：GPT-4o

[title]OpenAI春季发布会：GPT-4o[heading1]Model capabilities模型功能[heading2]官方案例-中文翻译版在GPT-4o之前，您可以使用语音模式与ChatGPT交谈，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。为了实现这一点，语音模式是一个由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、歌声或表达情感。借助GPT-4o，我们在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为GPT-4o是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。