Chat with Wiki - 国内有什么写代码比较好用的模型吗（除了deepseek）

Answer

国内写代码比较好用的模型除了 DeepSeek 外，还有零一万物、知谱 AI 和阿里巴巴开发的模型，它们在 LMSYS 排行榜上取得了优异成绩，尤其在数学和编程方面表现出色。此外，国产开源模型 DeepSeek-V3 也具备出色的性能，其性能接近顶尖闭源模型 Claude 3.5-Sonnet，在知识、长文本和数学任务上均有显著提升，生成速度可达每秒 60 个令牌。

Content generated by AI large model, please carefully verify (powered by aily)

References

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

Llama 3.1是迄今为止最大版本，其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。上图为人们关于Llama 3.1 405B与GPT,Claude的评估，win:胜Tie:平Loss：输借助AlphaGeometry，符号推理引擎得以拯救谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明，利用这些数据从零开始训练了一个语言模型。AlphaGeometry在语言模型提出新构造，与符号引擎执行推理交替进行，直至找到解决方案。令人印象深刻的是，AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题，接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。它还展示了泛化能力——例如，发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要“尽管受到制裁，中国LLMs在排行榜上风头正劲”由DeepSeek、零一万物、知谱AI和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩，尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争，同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率，以弥补GPU访问的限制，并学会比美国同行更有效地利用资源。中国模型各有优势。例如，DeepSeek在推理过程中通过多头隐式注意力减少内存需求，并且改进了MoE架构。同时，零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据，因此它更加关注建立强大的中文数据集来弥补不足。

DeepSeek 的秘方是硅谷味儿的

聪明的年轻AI研究人员+研究机构的氛围（配上大厂的package）+开源社区的分享和交流，提高了DeepSeek在全球AI领域影响力和声望。对一家以产生AI研究成果而非发布商业化产品为主要目标的机构而言，Hugging Face和Reddit就是最好的发布会会场，数据集和代码库就是最好的demo，论文就是最好的新闻稿。DeepSeek基本就是这么做的，而且做得很讲究。所以即便DeepSeek的研究人员和CEO鲜少接受媒体采访，也几乎从不在论坛和活动上分享技术经验和洞察，但你不能说它没做营销。反之，以证明中国AI原创研究可以引领全球趋势、招聘最聪明的研究人员的目的来说，DeepSeek的“营销”是极其精准和有效的。这里值得提一句，过去的一年中国的开源大模型主要玩家确实在全球AI研究和产品方面赢得了不少尊敬。一个越来越普遍的看法是：比起美国和欧洲的一些开源模型，中国的开源大模型在开源程度上更为彻底，更容易被研究人员和开发者直接拿过来上手研究或优化自己的模型。DeepSeek就是一个典型代表，除了DeepSeek，阿里巴巴的通义（Qwen）也被AI研究领域普遍认为开源态度较为真诚，面壁智能的小模型Mini-CPM-Llama3-V 2.5因为被斯坦福本科生团队直接套壳也意外走红了一把。所以很有意思：国际AI界特别是硅谷认为中国大模型的代表玩家是DeepSeek和阿里巴巴，而我们自己觉得是豆包、可灵和所谓的AI六小龙。客观地说，就国际AI界特别是硅谷能公正、积极地看待中国AI创新能力和对全球社区的贡献方面，DeepSeek和阿里巴巴们做得更多。开源在任何时候都是一件正确的事。

2024 年历史更新（归档）

《[码观|共识与非共识：从模型到应用，2024 AI趋势回首与展望](https://waytoagi.feishu.cn/wiki/DgUZwz4a9imlUhkcyC1c21XVnPd)》《[DeepMind最新研究：逆向思维训练LLM可大幅提升AI推理能力](https://mp.weixin.qq.com/s/xERMU0rR4IvSUerO9oAjkw)》DeepMind最新研究表明，逆向思维训练可以显著提升大语言模型（LLM）的推理能力。研究通过构建逆向推理数据集，并利用知识蒸馏方法指导模型训练，验证了逆向思维在多种推理任务中的有效性。文章指出，结合正向和逆向问题能够提高模型性能，尤其在中等难度问题上表现最佳。这一发现为未来LLM研究提供了新的思路。《[国产开源模型，代码能力比肩Claude，DeepSeek-V3正式发布](https://mp.weixin.qq.com/s/w8pUvP21WE2iDnKIqMBDjQ)》DeepSeek发布了其开源模型DeepSeek-V3，具备671B参数，性能接近顶尖闭源模型Claude 3.5-Sonnet。相比前代，DeepSeek-V3在知识、长文本和数学任务上均有显著提升，并且生成速度提升至每秒60个令牌。API服务定价调整为每百万输入tokens 0.5元，优惠期内维持0.1元。模型支持FP8训练并已开源权重，旨在缩小开源与闭源模型之间的能力差距，未来将继续扩展功能。