Stable Diffusion 中的 Stable Video Diffusion 可以生成视频。
Stable Video Diffusion 是 Stability AI 于 2023 年 11 月 21 日发布的视频生成式大模型,它是一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。该模型不仅支持文本、图像生成视频,还支持多视角渲染和帧插入提升视频帧率。用户可以调整模型选择、视频尺寸、帧率及镜头移动距离等参数。
当时,Stable Video Diffusion 开源了两种图生视频的模型,一种是能够生成 14 帧的 SVD,另一种则是可以生成 25 帧的 SVDXL。在以基础形式发布时,通过外部评估,发现这些模型超越了人类偏好研究中领先的封闭模型。
其主要贡献包括:提出一个系统的数据管理工作流程,将大量未经管理的视频集合转变为用于生成视频建模的高质量数据集;使用此工作流程,训练最先进的文本到视频和图像到视频模型,其性能优于所有现有模型;通过进行特定领域的实验来探索 SVD 模型中运动和 3D 理解的强先验。具体来说,预训练的视频扩散模型可以转变为强大的多视图生成器,这可能有助于克服 3D 领域中的数据稀缺问题。
Stability AI 还推出了基于 Discord 的媒体生成和编辑工具,其中的视频功能基于初始图像使用 Stable Video Diffusion 生成短视频。
在云部署实战方面,关于上面的两个模型依赖权重可在百度网盘获取,关注公众号「魔方 AI 空间」,回复【SVD】即可。手动下载下来后,分别放到指定路径。在准备工作做好后,再次运行,复制 url 到浏览器中打开。点击下拉箭头,可以选择不同模型版本,再勾选 load Model。SVD 本地部署目前仅支持图生视频,图片来源可以选择 AI 绘画工具如 Midjourney、Stable Diffusion 等生成图片,然后再上传到 SVD 进行视频的生成,同时可以调左侧的一些参数,控制视频的生成效果。视频生成的保存路径在 outputs 下。
但需要注意的是,SVD 模型对硬件要求较高,对于缺乏硬件资源的普通用户有一定限制,同时其支持的图片尺寸较小,限制了它的应用场景。尽管 SVD 与其他商用产品在帧率、分辨率、内容控制、风格选择和视频生成时长等方面存在差距,但其开源属性和对大规模数据的有效利用构成了其独特优势。
2025-02-25