Chat with Wiki - 2024最火的AI

Answer

2024 年是 AI 迅速发展的一年，以下是一些热门的情况：

国内方面：
- 中国开源项目表现出色，成为积极开源贡献者。
- DeepSeek 在编码任务中成为社区最爱，如 deepseek-coder-v2。
- 阿里巴巴发布的 Qwen-2 系列，其视觉能力给社区留下深刻印象。
- 清华大学自然语言处理实验室资助的 OpenBMB 项目催生了 MiniCPM 项目。
国外方面：
- Stability AI 发布的 Stable Video Diffusion 能从文本提示生成高质量、真实视频，且在定制化方面进步显著。今年 3 月推出的 Stable Video 3D 可预测三维轨道。
- OpenAI 的 Sora 能生成长达一分钟的视频，保持三维一致性等，还使用原始大小和纵横比的视觉数据训练。
- Google DeepMind 的 Veo 将文本和可选图像提示与嘈杂压缩视频输入结合处理。

在 AI 企业竞争方面：

国内：阿里巴巴、清华大学等在各自领域表现突出。
国外：
- OpenAI 期待已久的草莓落地，加倍扩大推理计算规模，o1 在解决复杂问题上有显著改进，但成本较高。
- Meta 推出 Llama 3 家族，不断更新版本，使用大量令牌训练，在规模上有突破。

此外，AI 革命促使成本下降，有可能改变关键领域的成本结构和提高生产力，涉及领域有扩大趋势。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

**中国开源项目在今年赢得全球粉丝，并且已经成为积极开源贡献者。**其中几个模型在个别子领域中脱颖而出，成为强有力的竞争者。DeepSeek在编码任务中已成为社区的最爱，其组合了速度、轻便性和准确性而推出的deepseek-coder-v2。阿里巴巴最近发布了Qwen-2系列，社区对其视觉能力印象深刻，从具有挑战性的OCR任务到分析复杂的艺术作品，都完成的非常好。在较小的一端，清华大学的自然语言处理实验室资助了OpenBMB项目，该项目催生了MiniCPM项目。这些是可以在设备上运行的小型<2.5B参数模型。它们的2.8B视觉模型在某些指标上仅略低于GPT-4V。2024年是AI图像视频迅速发展的一年，这个赛道竞争异常激烈国外Stability AI发布的Stable Video Diffusion，是第一个能够从文本提示生成高质量、真实视频的模型之一，并且在定制化方面取得了显著的进步。并且在今年3月，他们推出了Stable Video 3D，该模型经过第三个对象数据集的微调，可以预测三维轨道。OpenAI的Sora能够生成长达一分钟的视频，同时保持三维一致性、物体持久性和高分辨率。它使用时空补丁，类似于在变压器模型中使用的令牌，但用于视觉内容，以高效地从大量视频数据集中学习。除此之外，Sora还使用了其原始大小和纵横比的视觉数据进行训练，从而消除了通常会降低质量的裁剪和缩放。Google DeepMind的Veo将文本和可选图像提示与嘈杂压缩视频输入相结合，通过编码器和潜在扩散模型处理它们，以创建独特的压缩视频表示。然后系统将此表示解码为最终的高分辨率视频。

红杉｜AI 50 未来公司

诸如AI革命等生产力革命促使成本下降。本世纪的技术进步从根本上降低了硬件成本，但从医疗到教育产业的人力成本却急剧上升。AI有可能降低这些关键领域的成本，使人们更容易获得和负担得起这些服务。这些变化需要以负责任的方式进行，以减少就业机会的流失，推动就业机会的创造。AI将使我们能够以更少的投入做更多的事情，但政府和民营企业需要共同努力，对每个人进行再培训，并增强他们的能力。在我们社会的某些最关键的领域，AI将改变成本结构并提高生产力。它有可能带来更好的教育、更健康的人口和更有生产力的人，通过抽象出琐碎的工作，让我们把注意力集中在更重要的问题上，并为未来提供更好的工具。它可以解放更多的人去解决更多的问题，从而创造一个更美好的社会。从2024年AI50强榜单中可以看出，AI涉及的领域有扩大的趋势，这份榜单的应用范围比以往任何时候都更加广泛。我们预计在未来几年，这份榜单的深度和广度都将不断扩大。2024年其实只是一个开始。

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

**首先让我们看看，今年国外AI企业做了哪些引得全网沸腾？**小编选取报告中一些事例进行展现～期待已久的OpenAI草莓终于落地，加倍扩大推理计算规模通过将计算从预训练和后训练转移到推理，o1以链式思维（COT）的方式逐步处理复杂的提示，采用强化学习（RL）来优化COT及其使用的策略。这使得解决多层次的数学、科学和编码问题成为可能，这些问题由于下一个词预测的固有限制，历史上大型语言模型（LLMs）难以应对。OpenAI报告称，与4o相比，在需要大量推理的基准测试中取得了显著改进，尤其是在AIME 2024（竞赛数学）上，得分高达83.83，而4o只有13.4。OpenAI在其API文档中明确指出，o1并不是4o的直接替代品，并且它并不是需要持续快速响应、图像输入或函数调用任务的最佳模型。然而，这种能力的成本很高：o1-preview的100万输入标记费用为15美元，而100万输出标记则需60美元。这使其比GPT-4o贵3到4倍Llama 3家族的出现，关闭了开放和封闭模型之间的差距在四月，Meta推出Llama 3家族，七月推出3.1版本，九月推出3.2版本。Meta使用令人难以置信的15T令牌来训练这个家族。虽然这超过了“Chinchilla-最佳”的培训计算量，但他们发现，无论是8B还是70B模型，在15T之前都以对数线性的方式改善。Llama 3.1 405B是在超过16000个H100 GPU上训练的，这是第一个在这一规模上进行训练的Llama模型。在九月，Meta推出了Llama 3.2，它包含了11B和90B的VLM（Llama多模态的首次亮相）。