DeepSeek 能够实现之前的大模型实现不了的表格类任务,可能有以下原因:
需要注意的是,以上只是基于提供的信息进行的推测和分析,具体原因还需要更深入的研究和了解 DeepSeek 的技术细节。
[heading2]智能章节[00:00](https://waytoagi.feishu.cn/minutes/obcnmo3hj6o3pw99e79386lx?t=0)Deepseek热度高,陈财猫将分享提示词及小说创作心得本章节中,AJ提到Deepseek热度极高,微信指数达10亿多次,借此热度邀请陈财猫分享相关提示词用法。还设计一起写主题为“反转”、不超1000字小说的环节。随后陈财猫先做调查,见大家都用过Deepseek后,准备先讲讲该模型的特点。[03:40](https://waytoagi.feishu.cn/minutes/obcnmo3hj6o3pw99e79386lx?t=220000)财猫分享AI内容创作见解及对AI创作好文字的论证本章节财猫先进行自我介绍,分享过往经历及公司业务,认为AI加内容创作是现阶段好赛道。接着探讨大模型难以完成生产力任务,还介绍自身用AI创作的内容。此外,以纳伯科夫对好文字的定义论证AI能写出好文字,并借万能逼近定律说明大模型可引发情感共鸣。[11:00](https://waytoagi.feishu.cn/minutes/obcnmo3hj6o3pw99e79386lx?t=660000)AI写作探讨:从好文字基础到模型挑选及变化本章节财猫先引用美国大学心理学教材观点,阐述共鸣是文学基础,因人类共性大于差异,AI能写出好文字。还提到曾讲过如何用AI写出比人更好的文字,随着Deepseek re出现情况有变化。指出写出好文字首要挑选好模型,模型能力差异大,认为Deepseek R1是目前最好的模型。
中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可能:550万美元和2000块英伟达H800 GPU(针对中国市场的低配版GPU)训练出的开源模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等顶级开源模型,亦与GPT-4o和Claude 3.5-Sonnet这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达H100。可以想象它在人工智能界引发的震撼——尤其是在AI领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷AI领域的重要人士都不吝惜对DeepSeek的称赞,比如OpenAI联合创始人Andrej Kaparthy和Scale.ai的创始人Alexandr Wang。尽管OpenAI CEO Sam Altman发了一条疑似影射DeepSeek抄袭借鉴其它先进成果的推文(很快就被人回怼“是指把Google发明的Transformer架构拿过来用么?),但DeepSeek收获的赞誉确实是广泛而真诚的,尤其是在开源社区,开发者用脚投票。
LLM看这里:[详解:DeepSeek深度推理+联网搜索目前断档第一](https://waytoagi.feishu.cn/wiki/D9McwUWtQiFh9sksz4ccmn4Dneg)关键点:1.统一Transformer架构,使用同一个模型就能完成图片理解,图片生成2.提供1B和7B两种规模,适配多元应用场景3.全面开源,支持商用,MIT协议,部署使用便捷4.Benchmark表现优异,能力更全面(上一个是智源开源的Emu3模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B官方解释:Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。下载地址:https://github.com/deepseek-ai/Janus