直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
deepseek的产生对AI行业的影响
DeepSeek 的产生对 AI 行业具有多方面的影响: 1. 华尔街分析师的反应: DeepSeek 展示出媲美领先 AI 产品性能的模型,但成本仅为其一小部分,在全球主要市场的 App Store 登顶。 Jefferies 警告其技术可能打破资本开支狂热,Citi 对其技术突破提出质疑。 高盛预测其可能改变科技巨头与初创公司的竞争格局,降低 AI 行业进入门槛。 2. 实际使用体验: 在文字能力上表现突出,尤其在中文场景中高度符合日常、写作习惯,但在专业论文总结方面稍弱。 数学能力经过优化,表现不错;编程能力略逊于 GPT,据用户反馈。 GRPO 算法替代传统 PPO,降低价值函数估计难度,提高语言评价场景的灵活性与训练速度。 3. 训练成本方面: 训练成本远高于传闻的 600 万美元,总计约 13 亿美元。 定价低于实际成本,导致高额亏损。 MixtureofExpert 方法降低计算需求,但大规模内存使用可能反而增加总成本。 4. 竞争格局影响: 以低成本开发顶级 AI 模型的 Mistral AI 被中国 DeepSeek 迅速赶超。 DeepSeek 的“极简算力”模式可能削弱 Mistral 的竞争优势。
2025-02-17
prompt
以下是关于 prompt 的相关知识: 1. 提示简介: 提示是您给 Claude 的文本,用于引发相关输出,通常以问题或指示的形式出现。例如,“User:Why is the sky blue? 为什么天空是蓝色的?”,Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。 2. 改变区域+混音: 选择的大小会影响结果。更大的选择为中途机器人提供更多上下文信息,能改善新添加内容的扩展和上下文,但选择太多可能导致新生成的元素混合或替换原始图像的部分。 提示应集中于您希望在所选区域中发生的事情,较短且聚焦的提示通常更有效,不应是对话式的。 分步进行,如果要更改图像的多个部分,一次只处理一个部分。 技术细节:使用 Vary+Remix 模式生成的作业遵循 chaos、fast、iw、no、stylize、relax、style、version、video、weird 等参数。 3. 提示的类型: 基本提示:可以是简单的单词、短语或表情符号。中途机器人最适合用简单、简短的句子来描述您想看到的内容,避免长长的请求列表。 高级提示:可以包括一个或多个图像 URL、多个文本短语以及一个或多个参数。图像 URL 始终出现在提示的前面,精心编写的提示有助于生成令人惊叹的图像。
2025-02-17
开源模型和闭源模型
开源模型和闭源模型的情况如下: 专有模型(闭源模型):如 OpenAI、Google 等公司的模型,需访问其官方网站或平台(如 ChatGPT、Gemini AI Studio)使用。 开源模型: 可使用推理服务提供商(如 Together AI)在线体验和调用。 可使用本地应用程序(如 LM Studio)在个人电脑上运行和部署较小的开源模型。 例如 DeepSeek、Llama 等开源模型。 Qwen 2 开源,具有多种尺寸的预训练和指令调整模型,在大量基准评估中表现出先进性能,超越目前所有开源模型和国内闭源模型,在代码和数学性能等方面显著提高。 金融量化领域的大模型正趋向闭源,几个巨头的核心模型如 OpenAI 最新一代的 GPT4、Google 的 Bard 以及未来的 Gemini 短时间内不会公开。Meta 的 LLaMA 目前开源,但未来可能改变。OpenAI 未来可能开源上一代模型。
2025-02-17
什么是transformer
Transformer 是一种深度学习模型,其核心思想是“Attention is all you need”,来源于 2017 年 Google Brain 团队发布的同名论文。它主要用于处理序列数据,包括热门的 NLP 任务。与传统模型不同,Transformer 完全基于注意力机制,不使用传统的循环神经网络(RNN)或卷积神经网络(CNN)的计算架构。 Transformer 采用完全并行的计算方式,借助 GPU 加速训练速度,并引入自注意力机制,能够直接对输入序列中的每个位置进行编码和解码,从而更好地捕捉序列中的长程依赖关系。 最流行的基于 Transformer 的模型之一是 BERT,它是“来自 Transformer 的双向编码器表示”(“Bidirectional Encoder Representations from Transformers”)的缩写。BERT 已进入几乎所有的 NLP 项目,包括谷歌搜索。它可以扩展来解决一系列不同的任务,如文本摘要、问答、分类、命名实体识别、文本相似度、攻击性信息/脏话检测、理解用户的查询等。 此外,Transformer 不仅在自然语言处理领域发挥重要作用,如谷歌搜索去年推出的基于 Transformer 的聊天机器人 Meena,还在自然语言处理之外掀起浪潮,例如作曲、根据文本描述生成图像以及预测蛋白质结构。
2025-02-17
如何用ai进行小红书排版和内容
以下是关于如何用 AI 进行小红书排版和内容的相关信息: 画小二:Coze 工作流之抖音热门视频转小红书图文详细配置,包括整体结构图、各模块参数配置(如开始模块、Get_Video 模块、LinkReaderPlugin 模块、标题大模型、内容大模型、图片 Prompt 大模型、文生图 ImageToolPro 模块、输出结果参数配置)。在标题和内容创作方面,有具体的技能和要求,如采用二极管标题法创作吸引人的标题,生成口语化、含表情符号、200 字左右的正文,并抽取 seo 关键词生成标签等。 利用 AI 节约 10 倍内容创作时间:介绍了“小红书文案专家”,其功能价值包括生成小红书文案初稿、辅助创作、节约时间等。设计思路包括解决时间有限和配图麻烦的痛点,通过工作流让 AI 按照运营思路工作,一期产品功能有提取链接内容、整理成小红书风格、加入 emoji 表情包、配图片等,二期计划功能有增加全网搜索热点等。 AI 摊主速成脑暴会:涉及 AI 娱乐与算命、技术与工具教学、个性化小工具、体验型项目等分类,每个分类下有具体的内容和示例项目,如 AI 算命、Prompt 技巧传授、小红书爆款文案、桌宠体验等。
2025-02-17
大模型的基本原理
大模型的基本原理如下: 1. 模仿人类大脑结构,表现出人的特征,应对大模型回答不及预期的解决之道与人与人交流沟通的技巧相似。 2. GPT 全称是生成式预训练转换器模型(Generative Pretrained Transformer): 生成式(Generative):大模型根据已有的输入为基础,不断计算生成下一个字词(token),逐字完成回答。例如,从提示词“How”开始,依次推理计算出“are”“you”等,直到计算出下一个词是的概率最大时结束输出。 3. 通俗来讲,大模型通过输入大量语料来让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。其训练和使用过程可类比为上学参加工作: 找学校:训练大模型需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练。 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 找老师:用合适算法讲述“书本”内容,让大模型更好理解 Token 之间的关系。 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 搬砖:就业指导完成后进行推导(infer),如进行翻译、问答等。 4. 在 LLM 中,Token 被视为模型处理和生成的文本单位,可代表单个字符、单词、子单词等,在将输入进行分词时会对其进行数字化,形成词汇表。 5. 相关技术名词及关系: AI 即人工智能。 机器学习包括监督学习、无监督学习、强化学习,监督学习有标签,无监督学习无标签自主发现规律,强化学习从反馈里学习。 深度学习参照人脑有神经网络和神经元,神经网络可用于多种学习方式。 生成式 AI 可生成多种内容形式,LLM 是大语言模型,生成只是大语言模型的一个处理任务。 6. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出 Transformer 模型,基于自注意力机制处理序列数据,不依赖 RNN 或 CNN。
2025-02-17
千帆大模型开发平台
百度智能云的千帆大模型平台在解决大模型的调用、开发和应用开发方面表现出色。它支持调用文心大模型全系列模型,并提供全面的工具链,支持定制化的模型开发。在应用开发上,通过 AppBuilder 提供企业级 Agent 和企业级 RAG 开发能力,还能将企业应用中产生的数据经过评估和对齐进一步反馈到模型中,形成良性循环,持续优化模型性能。 2024 年上半年,百度智能云在 MaaS 市场和 AI 大模型解决方案市场中均获得第一名,市占率分别为 32.4%和 17%。MaaS 业务主要依托百度智能云千帆大模型平台提供服务,AI 大模型解决方案方面沉淀了八大行业解决方案。在 2024 百度世界大会上,百度智能云千帆大模型平台发布了工作流 Agent 能力,有助于企业更稳定、高效地实现多任务分解和执行。
2025-02-17
deepseek
DeepSeek 是一家具有独特特点和影响力的公司: 1. 其秘方被认为是硅谷味儿的。将其比喻成“AI 界的拼多多”是偏颇的,早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发轰动,而当时在国内却被描摹成“大模型价格战的发起者”。 2. 如果 V3 是 DeepSeek 的 GPT3 时刻,接下来的发展充满未知,但 DeepSeek 已成为中国最全球化的 AI 公司之一,赢得全球同行尊重的秘方也是硅谷味儿的。 3. 一个提示词“HiDeepSeek”能让 DeepSeek 的能力更上一层楼。使用方法包括:搜索 www.deepseek.com 点击“开始对话”,将装有提示词的代码发给 DeepSeek,认真阅读开场白后正式开始对话。其设计思路包括将 Agent 封装成 Prompt 并储存在文件,通过提示词文件让 DeepSeek 实现同时使用联网和深度思考功能,优化输出质量等。完整提示词版本为 v1.3,特别鸣谢李继刚和 Thinking Claude 等。
2025-02-17
RAG是什么
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构,旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在内容黑盒、不可控以及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化数据、SQL 在内的结构化数据,以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-02-17
deepsee能做什么
DeepSee 具有以下功能和特点: 1. 可以通过特定的步骤进行使用,包括搜索 www.deepseek.com 并点击“开始对话”,将装有提示词的代码发给 DeepSeek,认真阅读开场白后正式开始对话。 2. 其设计思路包括将 Agent 封装成 Prompt 并储存在文件,通过提示词文件让 DeepSeek 实现同时使用联网功能和深度思考功能,在模型默认能力基础上优化输出质量,设计阈值系统,用 XML 进行规范设定等。 3. 拥有完整的提示词。 4. 深夜发布了大一统模型 JanusPro,将图像理解和生成统一在一个模型中。该模型具有理解和生成图片的两种本领,其核心是 DeepSeek 语言模型,经过了预训练、监督微调、用“精华浓缩法”保存学习成果等特别训练法。它采用 Transformer 大一统模型,具有任务导向、效率考量、架构简洁性等优势,关键设计包括参数共享和注意力机制,具有灵活性。
2025-02-17