与知识库对话 - 2024年视频换脸技术

回答

2024 年视频换脸技术面临一些挑战和发展趋势：

挑战方面：
- 可控性和一致性存在挑战，如人脸转动中保持观感不变形、多个生成片段保持人物一致性、遵循生成指令等，目前视频生成的体感仍需改进，需要底层模型的进步。
- 成本较高，生成一段 5 秒视频的成本最低约为 1 元人民币，限制了 C 端玩法和大规模应用。
发展趋势：
- 原生多模态成为 AI 架构的主流选择，从 OpenAI 的 GPT-4V 到 Anthropic 的 Claude-3V 和 xAI 的 Grok-1.5V 等，行业正从简单的模态叠加向真正的多模态融合迈进。原生多模态模型采用统一的编码器-解码器架构，在预训练阶段完成多模态信息的深度融合，提升了模型的理解能力，实现了模态间的无缝转换和互补增强，能够处理更复杂的任务。
- 自 2023 年末开始，Runway、Pika、Meta、Google 等不断推出视频生成/编辑工具，2024 年是 AI 视频技术逐渐成熟并开始商用的一年，下半年或 2025 年可能会看到 AI-3D 技术的突破。抖音的成功证明音频、视频加入泛社交/娱乐产品会带来质的飞跃，AI 陪聊赛道中视频、音频技术的加入也将带来内容生产和社交方式的质变。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

其次是可控性和一致性挑战。要将视频生成真正转化为生产力工具，需要做到production-ready，需要解决诸多问题，比如：如何让人脸在转动中仍然保持观感是同一个人没有变形？如何多个生成片段让人感觉还是同一个人物？如何让视频生成遵循指令？在实际操作中，视频生成的体感还和图片生成的早期类似，需要不断开盲盒，才能选出一个合适的视频。真正解决这个问题，还需要底层模型的进步。最后是成本问题。目前生成一段5秒视频的成本最低约为1元人民币，意味着能够基于视频生成的C端玩法依然受限，这个价位仍然制约着大规模应用的可能性。OpenAI 10月份提出sCM(Simplifying Continuous-Time Consistency Models)，已经在生成速度和成本方面有学术探究的进步。2025年，视频生成的成本是否能再降低一个甚至两个数量级，将直接决定新一波AI应用的命运。原生多模态模型AI应用的基座已经搭好2023年，似乎没有太多模型在强调原生多模态这件事——除了从一开始就坚信这件事的Google，从第一代大模型就以原生多模态开始训练。2024年，原生多模态成为AI架构的主流选择。从OpenAI的GPT-4V到Anthropic的Claude-3V和xAI的Grok-1.5V，行业正从简单的模态叠加向真正的多模态融合迈进。原生多模态模型突破了传统的模态隔离方案。不同于早期将文本、图像、语音分别处理再组合的方式，新一代模型采用统一的编码器-解码器架构，在预训练阶段就完成了多模态信息的深度融合。这种方案不仅大幅提升了模型的理解能力，更重要的是实现了模态间的无缝转换和互补增强。具备多模态能力的模型能够处理更复杂的任务。

AGI 万字长文（下）| 2024，分叉与洪流

抖音的成功已经证明了：对于泛社交/娱乐向产品，音频、视频的加入会带来质的飞跃。那么对于AI陪聊的赛道，AI视频、音频技术的加入，也一定会带来内容生产和社交方式的质变。这也是为什么近期的视频技术大爆发让人兴奋不已的原因。自2023年末开始，Runway、Pika、Meta、Google等都不断推出视频生成/编辑工具，到了2024年更是有了Sora……对于Sora，和任何新生事物一样，我们会高估短期（认为马上就有成熟产品）而低估长期（不愿相信、难以想象它可能带来的颠覆）。我暂时还没有特别细的关于Sora的信息，按照已知来看：Sora仍然在“GPT-世界模型”的逻辑框架内，在想法上并没有更新的东西，但Sora的进展是迈向AGI的坚实一步。Sora本身不是目的，我们为之惊叹的“生成视频”只是皮毛；而Sora更重要意义的在于通过使用更多模态数据（图像和视频），让大模型的理解能力又有了提升；最终目标一直没变，就是AGI。刚出来的Sora确实还有一系列问题：生成的图像不稳定、速度慢、成本高……不过there is no surprise，这些都很正常。如果我们参考文生图的成熟速度的话，从最开始有可用的产品（Dall-E1&2在2022年上半年面世）出来之后，到可以商用、产生行业变革大约经历了一年半的时间；类似的，2024年将会是AI视频技术逐渐成熟并开始商用的一年。当模型开始具有比较好的多模态理解能力的时候，稍晚一点到2024下半年或2025年，也会看到AI-3D技术的突破。