生数科技

分享
打开
全栈自研,融合文本、图像、3D、视频等多模态信息
🖼️ 图像
🎥 视频

概览

北京生数科技有限公司(简称“生数科技”)成立于2023年3月,核心团队成员来自清华大学人工智能研究院,此外汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才,是全球范围内领先的深度生成式算法研究团队,拥有扩散概率模型底层创新研发能力。公司致力打造世界领先的多模态大模型,融合文本、图像、视频、3D等多模态信息,探索生成式AI在艺术设计、游戏制作、影视后期、内容社交等场景的商业赋能,通过AI提升人类的创造力和生产力。

它们的产品主要有:视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft

CEO唐家渝在一次采访中说:首先多模态的重要性被证实了。我们团队一直坚定多模态方向,早在去年就推出了覆盖图像、3D 模型、视频等多模态生成的基础大模型。我们从成立之初就意识到单语言模型具有局限性,多模态能丰富信息类型,抬高模型能力的上限,也更符合人类体验世界的方式。

其次在技术路线方面,我们从第一天起就选择了跟 Sora 一样的扩散+Transformer 的融合架构,坚持「原生」多模态路线。当然,现在业界对多模态的技术探索还没停止,不同的路线仍有大量的研究在进行中,但 Sora 的发布让业界真正看到了 Diffusion Transformer 路线在多模态生成方面的巨大潜力。

相关推荐