以下为您介绍一些语音模型:
[title]阿里云最新开源模型——FunAudioLLMFunAudioLLM可以实现语音翻译、情感语音聊天、交互式播客、有声读物叙述等应用。核心是两个创新模型:用于高精度多语言语音识别、情感识别和音频事件检测的SenseVoice ;以及用于多语言、音色和情感控制的自然语音生成的CosyVoice。FunAudioLLM主页:https://fun-audio-llm.github.io/CosyVoice开源地址:https://github.com/FunAudioLLM/CosyVoiceSenseVoice开源地址:https://github.com/FunAudioLLM/SenseVoice
[title]智谱·AI开源模型列表[heading2]Chat模型��语言模型列表|模型|介绍|上下文token数|代码链接|模型权重下载链接|<br>|-|-|-|-|-|<br>|ChatGLM-6B-int4|ChatGLM-6B的Int4版本。最低只需6GB显存即可部署,最低只需7GB显存即可启动微调([P-Tuning v2](https://github.com/THUDM/P-tuning-v2))|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int4)|魔搭社区|始智社区|启智社区|<br>|ChatGLM-6B-int8|ChatGLM-6B的Int8版本|2K||[Huggingface](https://huggingface.co/THUDM/chatglm-6b-int8)|魔搭社区|始智社区|启智社区|<br>|AgentLM-7B|1.我们提出了一种AgentTuning的方法;2.我们开源了包含1866个高质量交互、6个多样化的真实场景任务的Agent数据集AgentInstruct3.基于上述方法和数据集,我们利用Llama2微调了具备超强Agent能力的AgentLM-7B、AgentLM-13B、AgentLM-70B。|4K|[AgentTuning](https://github.com/THUDM/AgentTuning)|[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-7b)|<br>|AgentLM-13B||4K||[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-13b)|<br>|AgentLM-70B||8K||[?Huggingface Repo](https://huggingface.co/THUDM/agentlm-70b)|
[title]OpenAI春季发布会:GPT-4o[heading1]Model capabilities模型功能[heading2]官方案例-中文翻译版在GPT-4o之前,您可以使用语音模式与ChatGPT交谈,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音,也无法输出笑声、歌声或表达情感。借助GPT-4o,我们在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。因为GPT-4o是我们第一个结合了所有这些模式的模型,所以我们仍然只是在探索该模型可以做什么及其局限性的表面。