以下是一些语音处理和视频处理工具的相关信息:
[heading2]总结Notebook LM的功能介绍文字文档处理:可导入人工智能相关的PDF格式论文,左侧栏快速加载,提供常见问题解答、学习指南、目录、时间轴、简报文档等功能,且对不相关问题会拒绝回复。视频处理:可复制YouTube视频网址链接进行处理,操作与文字文档类似,但文本输出格式存在问题。音频播客处理:可自定义或使用默认设置生成音频播客,能控制时长范围,最长约15分钟,最短1-2分钟,生成内容自然。关于AI在播客及相关领域的应用与思考无意义内容投喂:有人将毫无意义的屎尿屁内容喂给Notebook LM,引发关于人生意义的讨论。日记案例分析:把日记喂给Notebook LM后,主持人以不同视角有趣地讨论。可视化播客案例:全由AI生成的包括数字人、动画和音频的播客案例,语调自然但人物有AI感。交互式交流:Google IO大会发布新功能,可在播客对话中插嘴进行交互式交流,但未公布此功能。学习方式改变:将读过的文件投给Notebook LM以对话交互形式筛选信息,提高效率。上位者视角:播客功能类似上位者视角,如老师给启发但不具体指导每步。类似工具对比:如illuminate是Notebook IM相关功能的加强版,可自定义时长和输出文本。
##因cow是基于itchat的web协议制作,发送语音是.mp3文件,而非语音条[heading1]1、音频处理工具-ffmpeg[content]点击地址,进行安装[音频-ffmpeg安装](https://tffyvtlai4.feishu.cn/wiki/ZxcowYub6iE5GNkEsUjcW9vznMf)[heading1]2、讯飞APIkey申请[content]对比来对比去,觉得讯飞的最合适。免费一年,而且量很大,足够用。在讯飞上申请一个API Key。https://www.xfyun.cn/services/rtasr进入控制台创建应用这里这3个就是要用到的Key。[heading1]3、配置Cow[content]打开根目录的config.json,这里是总开关。按需配置,开启是true,关闭是false因发送语音不能是语音条,所以我只开了语音识别。配置讯飞的key,进入/chatgpt-on-wechat/voice/xunfei下的config.json,把对应的key配置进来即可。配置完成,重新扫码登录。以上,本期分享完成,希望对大家有所帮助。如果觉得不错,随手点个赞、在看、转发三连吧?如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。关注发送“知识精华”,可获得免费的知识链接地址。
|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||MM-Vid:一个集成的视频理解系统,能处理和理解长视频内容并进行问答。|可以想象到的应用场景:<br>1、快速的视频剪辑:只需要输入镜头脚本,提取素材库内容进行拼接。<br>2、快速的图生视频:结合图像识别为基础,根据镜头脚本提取出相同seed值的图片,通过runwayml思路生成3,5s视频,结合comfy ui自动化拼接。<br>3、快速诊断:思路和之前小互发的医疗诊断类似。|AI学习模型|由Microsoft Azure AI开发,结合了GPT-4V的能力和其他视觉、音频和语音处理工具,能处理和理解长视频和复杂任务。<br>能够自动识别和解释视频中的元素,如人物行为、情感表达、场景变化和对话内容,从而实现对视频故事线的理解。<br>其核心功能是将视频中的多模态信息(如视觉图像、音频信号和语言对话)转录成详细的文本脚本,这样大语言模型就能够理解视频内容。<br>这对于多种应用场景都非常有用,比如为视觉障碍人士提供视频内容的音频描述