Chat with Wiki - 以DeepSeek R1为代表的推理模型，与此前模型（如 ChatGPT-4、Claude 3.5 sonnet、豆包、通义等）的差异点主要在于

Answer

以 DeepSeek R1 为代表的推理模型与此前模型（如 ChatGPT-4、Claude 3.5 sonnet、豆包、通义等）的差异点主要在于：

技术路线：DeepSeek R1 与 OpenAI 现在最先进的模型 o1、o3 一样，属于基于强化学习 RL 的推理模型。
思考方式：在回答用户问题前，R1 会先进行“自问自答”式的推理思考，模拟人类的深度思考，从用户初始问题出发，唤醒所需的推理逻辑与知识，进行多步推导，提升最终回答的质量。
训练方式：在其他模型还在接受“填鸭式教育”时，DeepSeek R1 已率先进入“自学成才”的新阶段。
模型制作：R1 是原生通过强化学习训练出的模型，而蒸馏模型是基于数据微调出来的，基础模型能力强，蒸馏微调模型能力也会强。此外，DeepSeek R1 还能反过来蒸馏数据微调其他模型，形成互相帮助的局面。
与 Claude 3.7 Sonnet 相比，Claude 3.7 Sonnet 在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色，扩展思考模式在数学和科学领域带来显著提升，在某些方面与 DeepSeek R1 各有优劣。

Content generated by AI large model, please carefully verify (powered by aily)

References

非技术人 10 分钟读懂 Deepseek R1｜天才模型养成与 AI 超越人类的破晓时刻

就我观察而言，大多数人讨论的DeepSeek，基本指的是它的深度思考版本——DeepSeek R1。DeepSeek R1不同于先前的普通模型（如ChatGPT-4、Claude 3.5 sonnet、豆包、通义等），它与OpenAI现在最先进的模型o1、o3一样，同属于一条技术路线：基于强化学习RL的推理（Reasoning）模型。其标志性表现就是，在回答用户问题前，R1会先进行“自问自答”式的推理思考，凭此提升最终回答的质量。这种“自问自答”，并非简单的自言自语，而是AI在模拟人类的深度思考。从用户初始问题“先有鸡还是先有蛋”出发，AI唤醒解决该问题所需的推理逻辑与知识，对问题进行多步推导，为最终回答提供更加完备的思考准备。这种能力，并非凭空而来。如果把AI比作人类，那么DeepSeek R1的“聪明”，源于其背后独特的“教育方式”。——在许多其他的AI模型还在接受“填鸭式教育”时，DeepSeek R1已经率先进入了“自学成才”的新阶段。

智能纪要：02-26 | DeepSeek部署+蒸馏 2025年2月26日

关于AI模型部署与相关知识的讲解本地部署介绍：讲解了如果拥有云服务器如何进行本地部署，以及满血版本地部署的实际情况。免费额度说明：指出在freely.aliyun.com可领取500元免费额度，但有使用限制，不能部署满血版和较大的增流模型。平台服务差异：介绍了DLC、DSW和EAS等模型部署平台服务的差别。模型蒸馏微调：会带着大家复现模型的蒸馏和微调，并讲解相关知识。Deepseek R1模型的制作及相关模型比较R1模型的强化学习：通过强化学习，在训练过程中给予模型反馈，如路线规划是否成功到达终点、输出格式是否符合期望等，对正确路线增强权重，使做对的概率变高，导致思考逻辑变长。R1模型的蒸馏与微调：用Deepseek RE Zero蒸馏出带思考的数据，基于Deepseek V3微调，进行冷启动，再做强化学习，还从非公布模型提取微调数据，加上人类偏好，最终形成R1。R1与其他模型的差别：R1是原生通过强化学习训练出的模型，蒸馏模型是基于数据微调出来的，基础模型能力强，蒸馏微调模型能力也会强。模型的相互帮助：Deepseek R1反过来蒸馏数据微调V3，形成互相帮助的局面，使两个模型都更强。

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

相较于最新Grok 3 Beta模型，Claude 3.7 Sonnet（64k extended thinking）在推理方面几乎打成平手。而在数学、视觉推理方面，又略逊色于Grok 3 Beta。与o3-mini、DeepSeek R1相比，除了数学，带有扩展思考模式的Claude 3.7 Sonnet拿下最高分。Claude 3.7 Sonnet在任务指令跟随、通用推理、多模态能力和自主编程方面表现出色，扩展思考模式在数学和科学领域带来了显著提升。除了传统基准测试外，它甚至在宝可梦游戏测试中超越了所有先前模型AI编码智能体，一次完成45分钟任务