Chat with Wiki - 想用ai分析长视频，把视频内容作总结，且能提取视频文字

Answer

如果您想用 AI 分析长视频并提取视频文字、总结视频内容，可以按照以下步骤进行：

对于有字幕的 B 站视频：
- 确认视频栏下有字幕按钮，说明视频作者已上传字幕或后台适配了 AI 字幕。
- 安装油猴脚本：Bilibili CC 字幕工具。
- 安装后刷新浏览器，点击字幕会出现“下载”按钮，可选择多种字幕格式，带时间或不带时间的。
- 将下载的字幕文字内容全选复制发送给 GPTs 进行总结。
对于 MM-Vid 这类集成的视频理解系统：
- 由 Microsoft Azure AI 开发，结合了 GPT-4V 的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务。
- 能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解。
- 其核心功能是将视频中的多模态信息（如视觉图像、音频信号和语言对话）转录成详细的文本脚本，以便大语言模型理解视频内容。

需要注意的是，目前大部分用 AI 总结视频的工具/插件/应用都是通过获取视频字幕来实现的。总结完视频内容之后您还可以继续向 AI 提问更多细节内容或者与它探讨视频内容。

Content generated by AI large model, please carefully verify (powered by aily)

References

除了聊天内容之外，我们还能让AI总结整理各种文章（文章不超过2w字，否则就超出token了）例如，我复制了我的一篇文章给它总结：打开后直接全选复制全文，然后粘贴发送给GPTs，它就开始总结了，很方便，GPT4它能识别出哪些部分属于重点内容。[heading3]2、B站视频[content]你可能会疑惑，GPT不是无法处理视频内容吗，这是怎么做到的？答案是视频字幕。我用这个视频举例：https://www.bilibili.com/video/BV1VL411U7MU/?spm_id_from=333.337.search-card.all.click&vd_source=e05ea46c768d112737bc19e721da8967打开这个视频，如果你能在视频栏下面有一个字幕按钮，说明这个视频作者已经上传了字幕或者后台适配了AI字幕。那我们把这些字幕弄下来，再发给AI执行内容总结任务，是不是就达到了总结视频的效果？是的，目前大部分用AI总结视频的工具/插件/应用都是这么干的。那接下来的卡点就是，怎么把字幕文字内容给提取出来，用语音转文字？不，效率太低了。像这种有字幕的视频，我们可以装一个油猴脚本：[Bilibili CC字幕工具](https://greasyfork.org/zh-CN/scripts/378513-bilibili-cc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7)安装之后，刷新浏览器，点击字幕，你会看到多出一个“下载”按钮点击下载按钮，会弹出下面这个窗口，你可以选择多种字幕格式，带时间的或者不带时间的：接下来，还是老办法，将字文字内容全选复制发送给GPTs即可。当然，总结完视频内容之后你继续向AI提问更多细节内容或者与它探讨视频内容。

问：我想用 AI 把小说做成视频，应该怎么做？

1.小说内容分析：使用AI工具（如ChatGPT）分析小说内容，提取关键场景、角色和情节。2.生成角色与场景描述：根据小说内容，使用工具（如Stable Diffusion或Midjourney）生成角色和场景的视觉描述。3.图像生成：使用AI图像生成工具根据描述创建角色和场景的图像。4.视频脚本制作：将提取的关键点和生成的图像组合成视频脚本。5.音频制作：利用AI配音工具（如Adobe Firefly）将小说文本转换为语音，添加背景音乐和音效。6.视频编辑与合成：使用视频编辑软件（如Clipfly或VEED.IO）将图像、音频和文字合成为视频。7.后期处理：对生成的视频进行剪辑、添加特效和转场，以提高视频质量。8.审阅与调整：观看生成的视频，根据需要进行调整，比如重新编辑某些场景或调整音频。9.输出与分享：完成所有编辑后，输出最终视频，并在所需平台上分享。请注意，具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外，AI工具的可用性和功能也可能会随时间而变化，建议直接访问上述提供的工具网址获取最新信息和使用指南。内容由AI大模型生成，请仔细甄别

Han：基于现有能力项目应用的思考

|技术名称|应用场景|技术类型|简介|主要特点|工作原理|其他|官方网站|项目及演示|论文|Github|在线体验|附件|最后更新时间||-|-|-|-|-|-|-|-|-|-|-|-|-|-||MM-Vid：一个集成的视频理解系统，能处理和理解长视频内容并进行问答。|可以想象到的应用场景： 1、快速的视频剪辑：只需要输入镜头脚本，提取素材库内容进行拼接。 2、快速的图生视频：结合图像识别为基础，根据镜头脚本提取出相同seed值的图片，通过runwayml思路生成3,5s视频，结合comfy ui自动化拼接。 3、快速诊断：思路和之前小互发的医疗诊断类似。|AI学习模型|由Microsoft Azure AI开发，结合了GPT-4V的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务。 能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解。 其核心功能是将视频中的多模态信息（如视觉图像、音频信号和语言对话）转录成详细的文本脚本，这样大语言模型就能够理解视频内容。 这对于多种应用场景都非常有用，比如为视觉障碍人士提供视频内容的