DeepSeek 是一家低调但引人关注的大模型公司。他们发布了价格具有颠覆性的源模型 DeepSeek V2,引发了中国大模型之战。创始人梁文锋是技术理想主义者,坚持只做研究探索,希望将中国公司带入全技术创新的浪潮中。
此外,DeepSeek 还发布了开源模型 DeepSeek-V3,具备 671B 参数,性能接近顶尖闭源模型 Claude 3.5-Sonnet。相比前代,DeepSeek-V3 在知识、长文本和数学任务上均有显著提升,生成速度提升至每秒 60 个令牌,API 服务定价调整为每百万输入 tokens 0.5 元,优惠期内维持 0.1 元。模型支持 FP8 训练并已开源权重,旨在缩小开源与闭源模型之间的能力差距,未来将继续扩展功能。
但关于 DeepSeek 能够具体解决哪些问题,目前提供的信息中未明确提及。
《[长文深度解析Coze的多Agent模式的实现机制](https://mp.weixin.qq.com/s/8_998tbRd6yuzZwnKR2crA)》来自给我们社区分享过的艾木老师,他深入研究了Coze的多Agent模式机制,针对多Agent跳转不可靠的现象,分析了Coze提供的三种节点跳转模式,包括使用对话模型、独立模型以及自定义模型。通过对《谁是卧底》游戏的节点跳转实例进行解析,揭示了每种模式的应用场景和不足之处。《[揭秘DeepSeek:一个更极致的中国技术理想主义故事](https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg)》来自暗涌,DeepSeek是一家低调却引人关注的大模型公司,以独特的技术创新在市上崭露头角。他们发布了价格颠覆性的源模型DeepSeek V2,引发了中国大模型战。与其他公司不同,DeepSeek重模型架创新,成功降低成本,受到业内关注。始人梁文锋是技术理想主义者,坚持只做研究探索,希望将中国公司带入全技术创新的浪潮中。《[10万卡集群:通往AGI的新门票](https://mp.weixin.qq.com/s/3VoCKTcxp_FRUsFH-UHbPQ)》来自海外独角兽,各大公司争建设10万集群,投入巨大,但建涉及技术挑和运营问题。文章详细分析数据中心的力问题、并行计算方式、网络、可靠性、成本计算等方面,展示10万GPU集的算力和效率。同时,也出了数据中心设计和网络拓扑结构对于型AI训练集的重要性。
首先讲一下LLm,即large-language-model,大语言模型的工作原理。我们可以观察LLm大模型比如豆包在回复的时候,是不是一个一个字,行业里称之为流式输出的方式给你呈现内容的。为什么会这样呢?这是因为,大模型确实是在一个字一个字地去推理生成内容的。就好像我们看输入法的输入联想逻辑,输入联想,其实就是根据你输入的单个字,来推测你要输入的下个字是什么。比如我打了一个“输”字,那么我要打的下字就很有可能是“入”,当然这里就会有人问了,我要打的下个字也很有可能是“球”啊。没错,最开始的研究人员确实也识别到了这个问题。那么解法是什么呢?其实很简单,我们把上下文加入到输入里,不就能帮助模型理解下个字该是什么了吗。比如我们输入的是“我想在这个单元格中输”,那这下一个字大概率就是“入”。而我们如果输入的是“这场足球比赛中,输”,那下一个字大概率就是“球”。那么看到这里,善于思考的同学可能会发现这里存在第一,我们知道大模型的学习数据规模往往是海量的,每次的计算如果都带入全量的数据,算力上肯定是吃不消的。第二,仅去算字的概率,似乎也有问题。因为我们用于训练的文章数据等,往往是出于各种场景各种背景写就的。仅去算下个字出现的概率,容易会被各种不相干的信息干扰。是的,研究人员同样也遇到了这两个问题,而这时,两个概念的出现解决了这一难题。一个是词向量机制,一个是transformer模型中的attention自注意力机制。1)词向量机制
《[国产开源模型,代码能力比肩Claude,DeepSeek-V3正式发布](https://mp.weixin.qq.com/s/w8pUvP21WE2iDnKIqMBDjQ)》DeepSeek发布了其开源模型DeepSeek-V3,具备671B参数,性能接近顶尖闭源模型Claude 3.5-Sonnet。相比前代,DeepSeek-V3在知识、长文本和数学任务上均有显著提升,并且生成速度提升至每秒60个令牌。API服务定价调整为每百万输入tokens 0.5元,优惠期内维持0.1元。模型支持FP8训练并已开源权重,旨在缩小开源与闭源模型之间的能力差距,未来将继续扩展功能。《[谷歌首次公开:321个世界级企业AI应用实战,6大场景加速商业落地](https://mp.weixin.qq.com/s/5GfgjlwCqyrgGoNW859nkA)》谷歌首次公开了321个企业AI应用案例,归纳为六大核心场景:客户服务、员工赋能、创意内容、数据分析、代码生成和网络安全。这些案例展示了AI如何提升客户体验、优化运营、提高员工效率以及增强创意生产,助力企业在竞争中脱颖而出。通过深度分析,各企业借助AI技术实现商业化落地,为决策者提供了宝贵的经验借鉴。