Chat with Wiki - 如何把视频的内容，包括对话的文字提取并总结成文字？

Answer

要把视频的内容包括对话文字提取并总结成文字，可以按照以下步骤进行：

对于有字幕的 B 站视频，如果视频栏下面有字幕按钮，说明视频作者已上传字幕或后台适配了 AI 字幕。
安装油猴脚本：Bilibili CC 字幕工具。
安装之后刷新浏览器，点击字幕会出现“下载”按钮。
点击下载按钮，选择多种字幕格式，如带时间或不带时间的。
将下载的字幕文字内容全选复制发送给 GPTs 进行总结。

此外，还有一个集成的视频理解系统 MM-Vid，它由 Microsoft Azure AI 开发，结合了 GPT-4V 的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务，能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解，其核心功能是将视频中的多模态信息转录成详细的文本脚本，方便大语言模型理解视频内容。

Content generated by AI large model, please carefully verify (powered by aily)

References

夙愿：AI 快速总结群聊消息

除了聊天内容之外，我们还能让AI总结整理各种文章（文章不超过2w字，否则就超出token了）例如，我复制了我的一篇文章给它总结：打开后直接全选复制全文，然后粘贴发送给GPTs，它就开始总结了，很方便，GPT4它能识别出哪些部分属于重点内容。[heading3]2、B站视频[content]你可能会疑惑，GPT不是无法处理视频内容吗，这是怎么做到的？答案是视频字幕。我用这个视频举例：https://www.bilibili.com/video/BV1VL411U7MU/?spm_id_from=333.337.search-card.all.click&vd_source=e05ea46c768d112737bc19e721da8967打开这个视频，如果你能在视频栏下面有一个字幕按钮，说明这个视频作者已经上传了字幕或者后台适配了AI字幕。那我们把这些字幕弄下来，再发给AI执行内容总结任务，是不是就达到了总结视频的效果？是的，目前大部分用AI总结视频的工具/插件/应用都是这么干的。那接下来的卡点就是，怎么把字幕文字内容给提取出来，用语音转文字？不，效率太低了。像这种有字幕的视频，我们可以装一个油猴脚本：[Bilibili CC字幕工具](https://greasyfork.org/zh-CN/scripts/378513-bilibili-cc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7)安装之后，刷新浏览器，点击字幕，你会看到多出一个“下载”按钮点击下载按钮，会弹出下面这个窗口，你可以选择多种字幕格式，带时间的或者不带时间的：接下来，还是老办法，将字文字内容全选复制发送给GPTs即可。当然，总结完视频内容之后你继续向AI提问更多细节内容或者与它探讨视频内容。

2. 行业解决方案

对于常见IP角色，基模具备角色知识，通过PE即可实现角色扮演对于非常见IP角色（或背景知识较丰富的小说、影视剧角色），通过RAG检索与对话相关的知识片段，进行更加逼真的角色扮演[heading3]儿童教育陪伴[content]儿童闲聊场景，包括知识科普、讲故事、学英语等场景，需要PE结合长期记忆功能，给孩子陪伴感结合音视频实时互动，可以给儿童更加沉浸的使用体验[heading3]口语陪练[content]通过PE实现英语口语练习，增加特定的topic、评价指标等，让智能体为用户的口语水平进行评价和打分如涉及的知识较多，也可以通过RAG外挂知识库[heading3]智能导览[content]智能眼镜等xr设备双路采集音频和视频画面，通过RTC传输给服务端多模态智能体进行内容理解和语音输出，最终实时渲染在智能硬件终端，完成互动，可应用于虚拟导览等场景[heading2]多模态数据处理案例[heading3]招聘网站[content]对平台上的招聘信息进行内容识别，筛选：违反法律法规、涉及性别/地域歧视、含付费引导、敏感信息等的检测并根据规则对违法违规信息进行改写和二次确认[heading3]安防场景[content]对视频监控进行内容理解，实用简短文字总结监控内容，检测异常情况[heading3]视频内容总结[content]对各类视频平台的长/短视频进行内容总结，并以文字形式输出。

Han：基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||MM-Vid：一个集成的视频理解系统，能处理和理解长视频内容并进行问答。|可以想象到的应用场景： 1、快速的视频剪辑：只需要输入镜头脚本，提取素材库内容进行拼接。 2、快速的图生视频：结合图像识别为基础，根据镜头脚本提取出相同seed值的图片，通过runwayml思路生成3,5s视频，结合comfy ui自动化拼接。 3、快速诊断：思路和之前小互发的医疗诊断类似。|AI学习模型|由Microsoft Azure AI开发，结合了GPT-4V的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务。 能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解。 其核心功能是将视频中的多模态信息（如视觉图像、音频信号和语言对话）转录成详细的文本脚本，这样大语言模型就能够理解视频内容。 这对于多种应用场景都非常有用，比如为视觉障碍人士提供视频内容的音频描述