与知识库对话 - 关于deepseek

回答

DeepSeek 是一家来自中国杭州的人工智能创业公司。其在 2024 年 12 月发布的大语言模型 DeepSeek-V3 引起了巨大轰动，以相对较低的成本和有限的硬件资源，在多项评测中取得了出色成绩，可与世界顶级模型相媲美，收获了广泛赞誉。

DeepSeek 拥有多个官方频道，包括微信公众号：DeepSeek；小红书：@DeepSeek（deepseek_ai）；X（Twitter）:DeepSeek(@deepseek_ai)。

DeepSeek 深夜发布了大一统模型 Janus-Pro，将图像理解和生成统一在一个模型中。该模型是一种新型的自回归框架，通过将视觉编码解耦为独立路径解决了先前方法的局限性，利用单一的统一变压器架构进行处理，缓解了视觉编码器在理解和生成中的角色冲突，增强了框架的灵活性，超越了之前的统一模型，匹配或超过了特定任务模型的性能，成为下一代统一多模态模型的有力候选者。

其模型（7B）：https://huggingface.co/deepseek-ai/Janus-Pro-7B；模型（1B）：https://huggingface.co/deepseek-ai/Janus-Pro-1B 。

DeepSeek 因价格亲民、开源且能联网等优势爆火，在 Appstore 排行第一，导致算力股大跌，以技术普惠重新定义了 AI 边界。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

DeepSeek 的秘方是硅谷味儿的

中国杭州的人工智能创业公司DeepSeek是近一段时间硅谷的AI研究者和开发者的心魔。它在2024年12月发布的大语言模型DeepSeek-V3被认为实现了诸多的不可能：550万美元和2000块英伟达H800 GPU（针对中国市场的低配版GPU）训练出的开源模型，多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等顶级开源模型，亦与GPT-4o和Claude 3.5-Sonnet这样世界顶级的闭源模型不相上下——而训练后者的成本保守估计也要数亿美元和几十万块最强劲的英伟达H100。可以想象它在人工智能界引发的震撼——尤其是在AI领域的研究人员、创业者、资金、算力和资源最扎堆的硅谷。不少硅谷AI领域的重要人士都不吝惜对DeepSeek的称赞，比如OpenAI联合创始人Andrej Kaparthy和Scale.ai的创始人Alexandr Wang。尽管OpenAI CEO Sam Altman发了一条疑似影射DeepSeek抄袭借鉴其它先进成果的推文（很快就被人回怼“是指把Google发明的Transformer架构拿过来用么？），但DeepSeek收获的赞誉确实是广泛而真诚的，尤其是在开源社区，开发者用脚投票。

详解：DeepSeek深度推理+联网搜索目前断档第一

微信公众号：DeepSeek小红书：@DeepSeek（deepseek_ai)X(Twitter):DeepSeek(@deepseek_ai)最新消息：[DeepSeek深夜发布大一统模型Janus-Pro将图像理解和生成统一在一个模型中](https://waytoagi.feishu.cn/wiki/SneLwRmsYiUaI6kvxltcEBPPnhb)deepseek刚刚发布了新模型-一个强大的框架，它将图像理解和生成统一在一个模型中！！！上一个是智源开源的Emu3模型（7B）：https://huggingface.co/deepseek-ai/Janus-Pro-7B模型（1B）：https://huggingface.co/deepseek-ai/Janus-Pro-1BJanus-Pro是一种新型的自回归框架，它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性，同时仍然利用单一的统一变压器架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro超越了之前的统一模型，并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。DeepSeek爆火，价格亲民却实力超群，智慧开源领航者，实时联网深度推理双冠王，用技术普惠重新定义AI边界！便宜+开源+能联网，东方神秘力量Appstore排行第一，导致算力股大跌

详解：DeepSeek深度推理+联网搜索目前断档第一