Chat with Wiki - 当前最强AI模型有哪些？

Answer

当前最强的 AI 模型包括：

OpenAI 的 o3 模型：在 ARC-AGI 测试中达到了 87.5%的准确率，几乎与人类水平相当。能够进行自我对话、多角度分析和自我质疑，具备一定的“思考意识”。下一代 o3-mini 模型的推理能力能够媲美 o1 模型。
Google 的 Gemini 2.0 Flash：在重要的基准能力上直接追平甚至部分超越了 Gemini 1.5 Pro，同时模型速度有极大提升。
OpenAI 的 GPT-4：是一个大型多模态模型，在各种专业和学术基准测试中表现出与人类相当的水平。
Midjourney v5：具有极高的一致性，擅长以更高分辨率解释自然语言 prompt，并支持像使用 tile 这样的重复图案等高级功能。
DALL·E 3：代表了生成完全符合文本的图像能力的一大飞跃。
Mistral 7B：在所有基准测试上超越了 Llama 2 13B，在许多基准测试上超越了 Llama 1 34B，在代码任务上接近 CodeLlama 7B 的性能，同时在英语任务上表现良好。

此外，还有智谱·AI 开源的一些模型，如 WebGLM-10B、MathGLM-2B 等。

Content generated by AI large model, please carefully verify (powered by aily)

References

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

从o1到o3的快速进化，证明了新的Scaling Law的有效。在ARC-AGI测试中，o3模型达到了87.5%的准确率，几乎与人类水平（85%）相当。这意味着在适应未知任务方面，AI已经具备了接近人类的能力。我们无法通过给GPT-4增加更多计算量，来获得这样的结果。简单地扩大我们从2019年到2023年所做的事情（采用相同的架构，在更多数据上训练一个更大的版本）是不够的。而这一次，OpenAI找到了全新的思路。o系列模型能够进行自我对话、多角度分析和自我质疑，最终得出更可靠的答案。它不再仅仅是一个信息处理工具，而是开始具备了某种程度的“思考意识”。虽然这距离完全的自我意识还很遥远，但已经展示出了朝着这个方向演进的潜力。包括Google在内的AI公司，已经都看到这个方向的潜力，正在奋力追赶。而这条路，起码还可以狂奔一整年。Scaling Law的另一端参数效率突破在关注大模型的能力极限的时候，一个容易被忽视的关键进展是，2024年，我们也看到了模型参数效率出现了很强的突破——即随着模型的代际更迭，原本在前一代模型最大参数量的版本才能完成的能力，不断被后一代模型的“轻量级模型”版本追平。通常这样的“轻量级模型”要比“大模型”的版本参数量低1-2个数量级。比如12月，Google发布的Gemini 2.0 Flash，在重要的基准能力上，直接追平甚至部分超越了Gemini 1.5 Pro，而同时，模型的速度有极大提升。OpenAI也表示，下一代o3-mini模型的推理能力，能够媲美o1模型——可以说是当前最强的模型。轻量级模型的代际能力跃升的原因可能是多重的，一个常常为人所提到的原因是，蒸馏技术的使用。

ProductHunt 2023 年度最佳产品榜单

OpenAI今年为我们带来了两个最佳AI模型，并将它们打包成一个无与伦比的聊天机器人，很难被超越。不过，别只看到树木而忽略了森林。大模型在各个方面都取得了进步，为我们带来的AI能力是大多数人在一年前无法想象的。我们可以用一点文本生成整个网站、演示文稿和头像。我们可以创造出任何我们想象的图像。明年这个类别会有什么？更多的生成式AI？「大型行为模型」？生成式口语语言模型？AGI？GPT-4（免费可用）——与人类水平相当的LLM：GPT-4是OpenAI在深度学习规模扩大方面的最新里程碑。GPT-4是一个大型多模态模型（接受图像和文本输入，输出文本），在各种专业和学术基准测试中表现出与人类相当的水平。Midjourney v5（免费）——令人惊叹的逼真AI图像-以及五指手：Midjourney V5模型是最新、最先进的模型，具有极高的一致性，擅长以更高分辨率解释自然语言prompt，并支持像使用tile这样的重复图案等高级功能。DALL·E 3（免费可用）——轻松将想法转化为极其精准的图像：现代文本到图像系统往往会忽略单词或描述，迫使用户学习提示工程。DALL·E 3代表了我们生成完全符合文本的图像能力的一大飞跃。Mistral 7B（免费）——迄今为止最优秀的70亿参数模型，Apache 2.0：Mistral 7B是一个具有73亿参数的模型，它：•在所有基准测试上超越了Llama 2 13B•在许多基准测试上超越了Llama 1 34B•在代码任务上接近CodeLlama 7B的性能，同时在英语任务上表现良好

智谱·AI 开源模型列表

以下模型，以便用户使用我们多元化的产品。|模型|介绍|代码链接|模型下载||-|-|-|-||WebGLM-10B|利用百亿参数通用语言模型（GLM）提供高效、经济的网络增强型问题解答系统。它旨在通过将网络搜索和检索功能集成到预训练的语言模型中，改进现实世界的应用部署。|[WebGLM](https://github.com/THUDM/WebGLM)|[Huggingface](https://huggingface.co/THUDM/WebGLM)||WebGLM-2B|||[Huggingface](https://huggingface.co/THUDM/WebGLM-2B)||MathGLM-2B|在训练数据充足的情况下，20亿参数的MathGLM模型能够准确地执行多位算术运算，准确率几乎可以达到100%，其结果显著超越最强大语言模型GPT-4在相同测试数据上18.84%的准确率。|[MathGLM](https://github.com/THUDM/MathGLM)|[THU-Cloud](https://cloud.tsinghua.edu.cn/d/cf429216289948d889a6/)||MathGLM-500M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/c80046ec7e234be4831b/)||MathGLM-100M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/a6ca369a212c4df08359/)||MathGLM-10M|||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/16a914d6db2a4b8f80f5/)||MathGLM-Large|采用GLM的不同变体作为骨干来训练MathGLM，包括具有335M参数的GLM-large和GLM-10B。此外，还使用ChatGLM-6B和ChatGLM2-6B作为基座模型来训练MathGLM。这些骨干模型赋予MathGLM基本的语言理解能力，使其能够有效理解数学应用题中包含的语言信息。||[THU-Cloud](https://cloud.tsinghua.edu.cn/d/3d138deaf93441b196fb/)|