以下是使用 Runway 制作 1 分钟左右 AI 短片的步骤:
需要注意的是,在实际制作过程中可能会遇到一些问题,比如动画效果一般、局部物体运动控制等。可以结合其他工具如 Pika、Dalle3 等来解决,同时在剪辑和高清化方面,也有不同的选择和注意事项。比如剪辑可以使用剪映,但对于更长篇幅或追求更好效果可能需要使用 PR/FCP/达芬奇等传统剪辑软件。高清化可以使用 Topaz Video AI,但可能对电脑配置有要求。在声音处理方面,可以通过标点符号改变 11labs 的语音效果,也可以使用国内的魔音工坊等工具。
[heading1]注册零门槛:[content]右上角Sign Up注册输入邮箱与基础信息,完成邮箱验证,即可完成注册[heading2]选择Try For Free模式:所有新注册用户会有125个积分进行免费创作(约为100s的基础AI[content][heading1]Runway生成你的第一个视频,5分钟手把手[heading2]①选择左侧工具栏[Generate videos]“生成视频”;[heading2]②选择[Text/Image to Video]“文字/图片生成视频”[content][heading2]③将图片拖入框内[content][heading2]④选择一个动画系数[content][heading2]⑤点击生成4秒视频[content][heading2]⑥下载视频[content][heading1]成品展示[content][Gen-2 1007342664,test5png,M 3.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/ZIK5bRoUQocpQyxWSI4cqvQXnKh?allow_redirect=1)
目前还没有很好的办法解决,我的办法就是只能用短镜头+蒙太奇的方式来切换,涉及到太复杂的画面,用取巧的方式,比如用音效、空镜或其他反应来带。但还是会遇到无法用画面讲清楚故事的问题,所以涉及到关系镜头,有两个以上物体的画面,我用的是GPT4的Dalle3,Dalle3的审美差一些,但语义理解会强一些。因为没有关系镜头,实在交代不清楚人物关系——即狼替猫挡的那一下。于是乎,在生成了一堆废片之后,终于生出了一张还说得过去的图片。(一堆废片)(最终分镜)那么问题又来了,如何进行局部运动,怎么让这块木头掉下来呢?Pika目前还没有局部方向运动笔刷,我只能去试Runway Gen-2,Runway可以控制局部物体运动,但又有问题来了,Runway的动画效果比较一般,做出来,白猫的脸变形了……我……还好Pika有视频重绘的功能,我又把Runway生成的镜头放到Pika里再跑一遍,背着脸总比变形强点,大概齐地完成了该镜头……Roll不动了确实有点……所以这个关系镜头是用Dalle3+Runway+Pika结合完成的,这个工作流确实略麻烦……但咱还是相信,未来的趋势,一定是极简的工作流+工具的强整合……第三步,剪辑+高清化最后一步主要还是人工剪辑,音效和配乐用的不是AI。但其实AI声音在某方面(比如配音)已经相对成熟了,有时间会再尝试做一些有人物对白的实验短片。高清化我主要用的是Topaz Video AI,这个需要本地电脑跑,我的老Mac有点跑不动,跑1分钟可能需要4-5h甚至更久,可以酌情求助一下周围电脑配置好的朋友。
跟视频制作类似,需要不断地抽卡(反复生成),因为11labs无法使用语速、情绪调节等控件,我们只能通过标点符号去改变语音效果,比如使用,、……。!等等标点符号,有时会叠加不同标点符号,去试它的语音效果。同一句台词,大家可以听出不同标点和抽不同卡时,声音的情绪都不太一样,所以要在AI声音里调试到合适的声音,抽声音卡的难度其实并不亚于抽视频的难度……我们常常一句台词要生成十几二十段音频,才能找到稍微能听得过去的、自然的声音。国内的可以使用出门问问的魔音工坊。魔音工坊可以使用情绪调节控件,还比较友好,但具体的评测还得等我们有机会做中文短片再试试!第五步,剪辑上篇剪辑没有多说,这次我会多说一些。目前大部分AI短片的创作者用的都是剪映,我也是,因为短片1-3分钟,用剪映其实会比传统剪辑软件更方便一些。但更长的篇幅,比如可能到5-10分钟,或者10分钟以上,要更好的效果的话,还是避免不了可能要用PR/FCP/达芬奇等等传统剪辑软件。剪映非常方便在于它有很多人性化的设计以及简单的音效库/小特效,难用的点在于剪映无法协同工作,导出工程文件,不像PR等软件可以导出XML打包工程文件,无法与各软件进行工程联通,应用起来就很难使视频内容达到更好的商业化效果。剪辑的流程是:视频粗剪——视频定剪——音效/音乐——特效——包装(如字幕)很多人在做视频的时候可能会先上来直接把音乐铺满,然后再开始剪,这样其实放弃了很多听觉上的制作空间。