**中国开源项目在今年赢得全球粉丝,并且已经成为积极开源贡献者。**其中几个模型在个别子领域中脱颖而出,成为强有力的竞争者。DeepSeek在编码任务中已成为社区的最爱,其组合了速度、轻便性和准确性而推出的deepseek-coder-v2。阿里巴巴最近发布了Qwen-2系列,社区对其视觉能力印象深刻,从具有挑战性的OCR任务到分析复杂的艺术作品,都完成的非常好。在较小的一端,清华大学的自然语言处理实验室资助了OpenBMB项目,该项目催生了MiniCPM项目。这些是可以在设备上运行的小型<2.5B参数模型。它们的2.8B视觉模型在某些指标上仅略低于GPT-4V。2024年是AI图像视频迅速发展的一年,这个赛道竞争异常激烈国外Stability AI发布的Stable Video Diffusion,是第一个能够从文本提示生成高质量、真实视频的模型之一,并且在定制化方面取得了显著的进步。并且在今年3月,他们推出了Stable Video 3D,该模型经过第三个对象数据集的微调,可以预测三维轨道。OpenAI的Sora能够生成长达一分钟的视频,同时保持三维一致性、物体持久性和高分辨率。它使用时空补丁,类似于在变压器模型中使用的令牌,但用于视觉内容,以高效地从大量视频数据集中学习。除此之外,Sora还使用了其原始大小和纵横比的视觉数据进行训练,从而消除了通常会降低质量的裁剪和缩放。Google DeepMind的Veo将文本和可选图像提示与嘈杂压缩视频输入相结合,通过编码器和潜在扩散模型处理它们,以创建独特的压缩视频表示。然后系统将此表示解码为最终的高分辨率视频。
?Xiaohu.AI日报「1月27日」✨✨✨✨✨✨✨✨1⃣️?华尔街分析师对DeepSeek的反应:DeepSeek展示出媲美领先AI产品性能的模型,但成本仅为其一小部分,在全球主要市场的App Store登顶。Jefferies警告其技术可能打破资本开支狂热,Citi对其技术突破提出质疑。高盛预测其可能改变科技巨头与初创公司的竞争格局,降低AI行业进入门槛。?[https://www.xiaohu.ai/c/xiaohu-ai/deepseek](https://www.xiaohu.ai/c/xiaohu-ai/deepseek)2⃣️?DeepSeek的实际使用体验:在文字能力上表现突出,尤其在中文场景中高度符合日常、写作习惯,但在专业论文总结方面稍弱。数学能力经过优化,表现不错;编程能力略逊于GPT,据用户反馈。GRPO算法替代传统PPO,降低价值函数估计难度,提高语言评价场景的灵活性与训练速度。?[https://x.com/imxiaohu/status/1883843200756170873](https://x.com/imxiaohu/status/1883843200756170873)?[https://www.xiaohu.ai/c/ai/grpo-deepseek-r1-8c6cff0c-deb8-4937-a419-7066af987e43](https://www.xiaohu.ai/c/ai/grpo-deepseek-r1-8c6cff0c-deb8-4937-a419-7066af987e43)3⃣️?️复旦大学OpenMOSS发布实时语音交互模型:
?Xiaohu.AI日报「1月27日」✨✨✨✨✨✨✨✨1⃣️?华尔街分析师对DeepSeek的反应:DeepSeek展示出媲美领先AI产品性能的模型,但成本仅为其一小部分,在全球主要市场的App Store登顶。Jefferies警告其技术可能打破资本开支狂热,Citi对其技术突破提出质疑。高盛预测其可能改变科技巨头与初创公司的竞争格局,降低AI行业进入门槛。?[https://www.xiaohu.ai/c/xiaohu-ai/deepseek](https://www.xiaohu.ai/c/xiaohu-ai/deepseek)2⃣️?DeepSeek的实际使用体验:在文字能力上表现突出,尤其在中文场景中高度符合日常、写作习惯,但在专业论文总结方面稍弱。数学能力经过优化,表现不错;编程能力略逊于GPT,据用户反馈。GRPO算法替代传统PPO,降低价值函数估计难度,提高语言评价场景的灵活性与训练速度。?[https://x.com/imxiaohu/status/1883843200756170873](https://x.com/imxiaohu/status/1883843200756170873)?[https://www.xiaohu.ai/c/ai/grpo-deepseek-r1-8c6cff0c-deb8-4937-a419-7066af987e43](https://www.xiaohu.ai/c/ai/grpo-deepseek-r1-8c6cff0c-deb8-4937-a419-7066af987e43)3⃣️?️复旦大学OpenMOSS发布实时语音交互模型: