2024 年在 AI 视频、图像领域,市场呈现出以下情况:
从市场数据来看,2024 全年全球 AI 移动应用内付费收入预计为 30 亿美元,其中图像和视频类 AI 应用占据主导地位,收入占比高达 53%。从地区分布来看,北美和欧洲贡献了三分之二的市场份额。
在行业格局方面,云厂商成为 AI 供应链的“链主”,掌握着庞大的商业生态和技术资源。头部阵营基本稳定,大型云厂商在产业链中的地位无可撼动。
**中国开源项目在今年赢得全球粉丝,并且已经成为积极开源贡献者。**其中几个模型在个别子领域中脱颖而出,成为强有力的竞争者。DeepSeek在编码任务中已成为社区的最爱,其组合了速度、轻便性和准确性而推出的deepseek-coder-v2。阿里巴巴最近发布了Qwen-2系列,社区对其视觉能力印象深刻,从具有挑战性的OCR任务到分析复杂的艺术作品,都完成的非常好。在较小的一端,清华大学的自然语言处理实验室资助了OpenBMB项目,该项目催生了MiniCPM项目。这些是可以在设备上运行的小型<2.5B参数模型。它们的2.8B视觉模型在某些指标上仅略低于GPT-4V。2024年是AI图像视频迅速发展的一年,这个赛道竞争异常激烈国外Stability AI发布的Stable Video Diffusion,是第一个能够从文本提示生成高质量、真实视频的模型之一,并且在定制化方面取得了显著的进步。并且在今年3月,他们推出了Stable Video 3D,该模型经过第三个对象数据集的微调,可以预测三维轨道。OpenAI的Sora能够生成长达一分钟的视频,同时保持三维一致性、物体持久性和高分辨率。它使用时空补丁,类似于在变压器模型中使用的令牌,但用于视觉内容,以高效地从大量视频数据集中学习。除此之外,Sora还使用了其原始大小和纵横比的视觉数据进行训练,从而消除了通常会降低质量的裁剪和缩放。Google DeepMind的Veo将文本和可选图像提示与嘈杂压缩视频输入相结合,通过编码器和潜在扩散模型处理它们,以创建独特的压缩视频表示。然后系统将此表示解码为最终的高分辨率视频。
据SensorTower统计,2024全年全球AI移动应用内付费收入预计为30亿美元,其中图像和视频类AI应用占据主导地位,收入占比高达53%;对话机器人类别排名第二,占比29%;其他类别合计不足20%。从地区分布来看,北美和欧洲贡献了三分之二的市场份额,是AI应用的主要消费市场。这也是众多中国AI公司积极出海的重要原因之一。▎云厂商成为AI供应链的“链主”美国红杉资本在《The AI Supply Chain Tug of War》一文中指出,AI供应链当前呈现出一种脆弱的平衡状态。他们将AI供应链从下到上分为六层,各层的盈利能力存在显著差异。第一层的芯片代工厂(如台积电)和第二层的芯片设计商(如英伟达)是当前的主要赢家,依然保持高利润水平;第三层的工业能源供应商(如电力公司)也因数据中心需求激增而受益良多。而作为供应链核心承载方的第四层云厂商,却处于重金投入阶段,不仅斥巨资建设数据中心,还在训练自有模型或大举投资AI模型开发商,处于供应链第五层的AI模型开发商目前同样面临亏损。供应链的第六层,也就是最上层则是面向最终客户的应用服务商。尽管充满潜力,但他们依赖消费者和企业付费,当前市场规模有限,尚不足以支撑整个供应链的经济模型。这使得大型云厂商成为整个供应链最主要的风险承担者。作为AI产业的中枢,云厂商不仅掌握着庞大的商业生态和技术资源,还拥有数千亿美元的市场规模。正因如此,它们在产业链中的地位无可撼动,是毋庸置疑的“链主”。▎行业格局:头部阵营基本稳定1、头部大模型
原链接:https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/翻译:歸藏2023年是人工智能视频领域的飞跃之年。年初,市场上还没有面向公众的文本生成视频的模型。但仅仅一年时间,我们就见证了数十种视频生成工具的问世,全球已有数百万用户通过文字或图像提示来制作短视频。目前这些工具还有局限性—大部分只能生成3到4秒的视频,视频质量参差不齐,像保持角色风格一致这样的难题还未得到解决。要想仅凭一个文本提示(或者几个提示)就制作出类似皮克斯电影的短片,我们还有很长的路要走。然而,过去一年在视频生成技术上取得的进展预示着我们正处于一场巨大变革的初期阶段,这种情况与图像生成技术的发展颇为相似。文本生成视频的模型正持续进步,并且像图像转视频、视频转视频这样的衍生技术也开始流行起来。为了更好地理解这一创新浪潮,我们追踪了目前为止该领域的重大发展、值得关注的公司,以及尚待解决的关键问题。