与知识库对话 - 语音处理视频处理工具

回答

以下是一些语音处理和视频处理工具的相关信息：

Notebook LM：
- 文字文档处理：可导入人工智能相关的 PDF 格式论文，左侧栏快速加载，提供常见问题解答、学习指南、目录、时间轴、简报文档等功能，对不相关问题会拒绝回复。
- 视频处理：可复制 YouTube 视频网址链接进行处理，操作与文字文档类似，但文本输出格式存在问题。
- 音频播客处理：可自定义或使用默认设置生成音频播客，能控制时长范围，最长约 15 分钟，最短 1 - 2 分钟，生成内容自然。
老金：Voice - 语音识别与发送语音
- 音频处理工具 - ffmpeg：点击地址进行安装音频 - ffmpeg 安装
- 讯飞 API key 申请：讯飞免费一年，量很大，足够用。在讯飞上申请一个 API Key，网址为：https://www.xfyun.cn/services/rtasr 。进入控制台创建应用，获取 3 个要用到的 Key。
- 配置 Cow：打开根目录的 config.json 进行总开关配置，按需配置，开启是 true，关闭是 false。因发送语音不能是语音条，所以只开了语音识别。配置讯飞的 key，进入/chatgpt-on-wechat/voice/xunfei 下的 config.json，把对应的 key 配置进来即可。配置完成，重新扫码登录。
MM-Vid：一个集成的视频理解系统，能处理和理解长视频内容并进行问答。应用场景包括快速的视频剪辑、快速的图生视频、快速诊断等。由 Microsoft Azure AI 开发，结合了 GPT-4V 的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务。能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解。其核心功能是将视频中的多模态信息（如视觉图像、音频信号和语言对话）转录成详细的文本脚本，这样大语言模型就能够理解视频内容。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[heading2]总结Notebook LM的功能介绍文字文档处理：可导入人工智能相关的PDF格式论文，左侧栏快速加载，提供常见问题解答、学习指南、目录、时间轴、简报文档等功能，且对不相关问题会拒绝回复。视频处理：可复制YouTube视频网址链接进行处理，操作与文字文档类似，但文本输出格式存在问题。音频播客处理：可自定义或使用默认设置生成音频播客，能控制时长范围，最长约15分钟，最短1-2分钟，生成内容自然。关于AI在播客及相关领域的应用与思考无意义内容投喂：有人将毫无意义的屎尿屁内容喂给Notebook LM，引发关于人生意义的讨论。日记案例分析：把日记喂给Notebook LM后，主持人以不同视角有趣地讨论。可视化播客案例：全由AI生成的包括数字人、动画和音频的播客案例，语调自然但人物有AI感。交互式交流：Google IO大会发布新功能，可在播客对话中插嘴进行交互式交流，但未公布此功能。学习方式改变：将读过的文件投给Notebook LM以对话交互形式筛选信息，提高效率。上位者视角：播客功能类似上位者视角，如老师给启发但不具体指导每步。类似工具对比：如illuminate是Notebook IM相关功能的加强版，可自定义时长和输出文本。

老金：Voice - 语音识别与发送语音

##因cow是基于itchat的web协议制作，发送语音是.mp3文件，而非语音条[heading1]1、音频处理工具-ffmpeg[content]点击地址，进行安装[音频-ffmpeg安装](https://tffyvtlai4.feishu.cn/wiki/ZxcowYub6iE5GNkEsUjcW9vznMf)[heading1]2、讯飞APIkey申请[content]对比来对比去，觉得讯飞的最合适。免费一年，而且量很大，足够用。在讯飞上申请一个API Key。https://www.xfyun.cn/services/rtasr进入控制台创建应用这里这3个就是要用到的Key。[heading1]3、配置Cow[content]打开根目录的config.json，这里是总开关。按需配置，开启是true，关闭是false因发送语音不能是语音条，所以我只开了语音识别。配置讯飞的key，进入/chatgpt-on-wechat/voice/xunfei下的config.json，把对应的key配置进来即可。配置完成，重新扫码登录。以上，本期分享完成，希望对大家有所帮助。如果觉得不错，随手点个赞、在看、转发三连吧?如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章。关注发送“知识精华”，可获得免费的知识链接地址。

Han：基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||MM-Vid：一个集成的视频理解系统，能处理和理解长视频内容并进行问答。|可以想象到的应用场景： 1、快速的视频剪辑：只需要输入镜头脚本，提取素材库内容进行拼接。 2、快速的图生视频：结合图像识别为基础，根据镜头脚本提取出相同seed值的图片，通过runwayml思路生成3,5s视频，结合comfy ui自动化拼接。 3、快速诊断：思路和之前小互发的医疗诊断类似。|AI学习模型|由Microsoft Azure AI开发，结合了GPT-4V的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务。 能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解。 其核心功能是将视频中的多模态信息（如视觉图像、音频信号和语言对话）转录成详细的文本脚本，这样大语言模型就能够理解视频内容。 这对于多种应用场景都非常有用，比如为视觉障碍人士提供视频内容的音频描述

语音处理 视频处理工具

回答

参考资料

语音处理视频处理工具