与知识库对话 - WayToAGI

直达「通往AGI之路」飞书知识库 →

首页/全部问答

deepseek的产生对AI行业的影响

DeepSeek 的产生对 AI 行业具有多方面的影响： 1. 华尔街分析师的反应： DeepSeek 展示出媲美领先 AI 产品性能的模型，但成本仅为其一小部分，在全球主要市场的 App Store 登顶。 Jefferies 警告其技术可能打破资本开支狂热，Citi 对其技术突破提出质疑。高盛预测其可能改变科技巨头与初创公司的竞争格局，降低 AI 行业进入门槛。 2. 实际使用体验：在文字能力上表现突出，尤其在中文场景中高度符合日常、写作习惯，但在专业论文总结方面稍弱。数学能力经过优化，表现不错；编程能力略逊于 GPT，据用户反馈。 GRPO 算法替代传统 PPO，降低价值函数估计难度，提高语言评价场景的灵活性与训练速度。 3. 训练成本方面：训练成本远高于传闻的 600 万美元，总计约 13 亿美元。定价低于实际成本，导致高额亏损。 MixtureofExpert 方法降低计算需求，但大规模内存使用可能反而增加总成本。 4. 竞争格局影响：以低成本开发顶级 AI 模型的 Mistral AI 被中国 DeepSeek 迅速赶超。 DeepSeek 的“极简算力”模式可能削弱 Mistral 的竞争优势。

以下是关于 prompt 的相关知识： 1. 提示简介：提示是您给 Claude 的文本，用于引发相关输出，通常以问题或指示的形式出现。例如，“User：Why is the sky blue? 为什么天空是蓝色的？”，Claude 回答的文本被称为“响应”，有时也被称为“输出”或“完成”。 2. 改变区域+混音：选择的大小会影响结果。更大的选择为中途机器人提供更多上下文信息，能改善新添加内容的扩展和上下文，但选择太多可能导致新生成的元素混合或替换原始图像的部分。提示应集中于您希望在所选区域中发生的事情，较短且聚焦的提示通常更有效，不应是对话式的。分步进行，如果要更改图像的多个部分，一次只处理一个部分。技术细节：使用 Vary+Remix 模式生成的作业遵循 chaos、fast、iw、no、stylize、relax、style、version、video、weird 等参数。 3. 提示的类型：基本提示：可以是简单的单词、短语或表情符号。中途机器人最适合用简单、简短的句子来描述您想看到的内容，避免长长的请求列表。高级提示：可以包括一个或多个图像 URL、多个文本短语以及一个或多个参数。图像 URL 始终出现在提示的前面，精心编写的提示有助于生成令人惊叹的图像。

开源模型和闭源模型

开源模型和闭源模型的情况如下：专有模型（闭源模型）：如 OpenAI、Google 等公司的模型，需访问其官方网站或平台（如 ChatGPT、Gemini AI Studio）使用。开源模型：可使用推理服务提供商（如 Together AI）在线体验和调用。可使用本地应用程序（如 LM Studio）在个人电脑上运行和部署较小的开源模型。例如 DeepSeek、Llama 等开源模型。 Qwen 2 开源，具有多种尺寸的预训练和指令调整模型，在大量基准评估中表现出先进性能，超越目前所有开源模型和国内闭源模型，在代码和数学性能等方面显著提高。金融量化领域的大模型正趋向闭源，几个巨头的核心模型如 OpenAI 最新一代的 GPT4、Google 的 Bard 以及未来的 Gemini 短时间内不会公开。Meta 的 LLaMA 目前开源，但未来可能改变。OpenAI 未来可能开源上一代模型。

什么是transformer

Transformer 是一种深度学习模型，其核心思想是“Attention is all you need”，来源于 2017 年 Google Brain 团队发布的同名论文。它主要用于处理序列数据，包括热门的 NLP 任务。与传统模型不同，Transformer 完全基于注意力机制，不使用传统的循环神经网络（RNN）或卷积神经网络（CNN）的计算架构。 Transformer 采用完全并行的计算方式，借助 GPU 加速训练速度，并引入自注意力机制，能够直接对输入序列中的每个位置进行编码和解码，从而更好地捕捉序列中的长程依赖关系。最流行的基于 Transformer 的模型之一是 BERT，它是“来自 Transformer 的双向编码器表示”（“Bidirectional Encoder Representations from Transformers”）的缩写。BERT 已进入几乎所有的 NLP 项目，包括谷歌搜索。它可以扩展来解决一系列不同的任务，如文本摘要、问答、分类、命名实体识别、文本相似度、攻击性信息/脏话检测、理解用户的查询等。此外，Transformer 不仅在自然语言处理领域发挥重要作用，如谷歌搜索去年推出的基于 Transformer 的聊天机器人 Meena，还在自然语言处理之外掀起浪潮，例如作曲、根据文本描述生成图像以及预测蛋白质结构。

如何用ai进行小红书排版和内容

以下是关于如何用 AI 进行小红书排版和内容的相关信息：画小二：Coze 工作流之抖音热门视频转小红书图文详细配置，包括整体结构图、各模块参数配置（如开始模块、Get_Video 模块、LinkReaderPlugin 模块、标题大模型、内容大模型、图片 Prompt 大模型、文生图 ImageToolPro 模块、输出结果参数配置）。在标题和内容创作方面，有具体的技能和要求，如采用二极管标题法创作吸引人的标题，生成口语化、含表情符号、200 字左右的正文，并抽取 seo 关键词生成标签等。利用 AI 节约 10 倍内容创作时间：介绍了“小红书文案专家”，其功能价值包括生成小红书文案初稿、辅助创作、节约时间等。设计思路包括解决时间有限和配图麻烦的痛点，通过工作流让 AI 按照运营思路工作，一期产品功能有提取链接内容、整理成小红书风格、加入 emoji 表情包、配图片等，二期计划功能有增加全网搜索热点等。 AI 摊主速成脑暴会：涉及 AI 娱乐与算命、技术与工具教学、个性化小工具、体验型项目等分类，每个分类下有具体的内容和示例项目，如 AI 算命、Prompt 技巧传授、小红书爆款文案、桌宠体验等。

大模型的基本原理

大模型的基本原理如下： 1. 模仿人类大脑结构，表现出人的特征，应对大模型回答不及预期的解决之道与人与人交流沟通的技巧相似。 2. GPT 全称是生成式预训练转换器模型（Generative Pretrained Transformer）：生成式（Generative）：大模型根据已有的输入为基础，不断计算生成下一个字词（token），逐字完成回答。例如，从提示词“How”开始，依次推理计算出“are”“you”等，直到计算出下一个词是的概率最大时结束输出。 3. 通俗来讲，大模型通过输入大量语料来让计算机获得类似人类的“思考”能力，能够进行文本生成、推理问答、对话、文档摘要等工作。其训练和使用过程可类比为上学参加工作：找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练。确定教材：大模型需要大量数据，几千亿序列（Token）的输入基本是标配。找老师：用合适算法讲述“书本”内容，让大模型更好理解 Token 之间的关系。就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。搬砖：就业指导完成后进行推导（infer），如进行翻译、问答等。 4. 在 LLM 中，Token 被视为模型处理和生成的文本单位，可代表单个字符、单词、子单词等，在将输入进行分词时会对其进行数字化，形成词汇表。 5. 相关技术名词及关系： AI 即人工智能。机器学习包括监督学习、无监督学习、强化学习，监督学习有标签，无监督学习无标签自主发现规律，强化学习从反馈里学习。深度学习参照人脑有神经网络和神经元，神经网络可用于多种学习方式。生成式 AI 可生成多种内容形式，LLM 是大语言模型，生成只是大语言模型的一个处理任务。 6. 技术里程碑：2017 年 6 月，谷歌团队发表论文《Attention is All You Need》，首次提出 Transformer 模型，基于自注意力机制处理序列数据，不依赖 RNN 或 CNN。

千帆大模型开发平台

百度智能云的千帆大模型平台在解决大模型的调用、开发和应用开发方面表现出色。它支持调用文心大模型全系列模型，并提供全面的工具链，支持定制化的模型开发。在应用开发上，通过 AppBuilder 提供企业级 Agent 和企业级 RAG 开发能力，还能将企业应用中产生的数据经过评估和对齐进一步反馈到模型中，形成良性循环，持续优化模型性能。 2024 年上半年，百度智能云在 MaaS 市场和 AI 大模型解决方案市场中均获得第一名，市占率分别为 32.4%和 17%。MaaS 业务主要依托百度智能云千帆大模型平台提供服务，AI 大模型解决方案方面沉淀了八大行业解决方案。在 2024 百度世界大会上，百度智能云千帆大模型平台发布了工作流 Agent 能力，有助于企业更稳定、高效地实现多任务分解和执行。

DeepSeek 是一家具有独特特点和影响力的公司： 1. 其秘方被认为是硅谷味儿的。将其比喻成“AI 界的拼多多”是偏颇的，早在 2024 年 5 月 DeepSeekV2 发布时，就以多头潜在注意力机制（MLA）架构的创新在硅谷引发轰动，而当时在国内却被描摹成“大模型价格战的发起者”。 2. 如果 V3 是 DeepSeek 的 GPT3 时刻，接下来的发展充满未知，但 DeepSeek 已成为中国最全球化的 AI 公司之一，赢得全球同行尊重的秘方也是硅谷味儿的。 3. 一个提示词“HiDeepSeek”能让 DeepSeek 的能力更上一层楼。使用方法包括：搜索 www.deepseek.com 点击“开始对话”，将装有提示词的代码发给 DeepSeek，认真阅读开场白后正式开始对话。其设计思路包括将 Agent 封装成 Prompt 并储存在文件，通过提示词文件让 DeepSeek 实现同时使用联网和深度思考功能，优化输出质量等。完整提示词版本为 v1.3，特别鸣谢李继刚和 Thinking Claude 等。

RAG（RetrievalAugmented Generation）即检索增强生成，是一种结合检索和生成能力的自然语言处理架构，旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。大模型需要 RAG 进行检索优化的原因在于其存在一些缺点： 1. LLM 无法记住所有知识，尤其是长尾知识，受限于训练数据和学习方式，对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新，微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证，存在内容黑盒、不可控以及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大，训练和运行成本高。 RAG 具有以下优点： 1. 数据库对数据的存储和更新稳定，不存在模型学不会的风险。 2. 数据库的数据更新敏捷，可解释且对原有知识无影响。 3. 数据库内容明确、结构化，加上模型的理解能力，能降低大模型输出出错的可能。 4. 知识库存储用户数据，便于管控用户隐私数据，且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本，新知识存储在数据库即可，无需频繁更新模型。 RAG 的核心流程是根据用户提问，从私有知识中检索到“包含答案的内容”，然后把“包含答案的内容”和用户提问一起放到 prompt（提示词）中，提交给大模型，此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。一个 RAG 的应用可抽象为 5 个过程： 1. 文档加载：从多种不同来源加载文档，LangChain 提供了 100 多种不同的文档加载器，包括 PDF 在内的非结构化数据、SQL 在内的结构化数据，以及 Python、Java 之类的代码等。 2. 文本分割：文本分割器把 Documents 切分为指定大小的块，称为“文档块”或者“文档片”。 3. 存储：涉及将切分好的文档块进行嵌入转换成向量的形式，并将 Embedding 后的向量数据存储到向量数据库。 4. 检索：通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出：把问题以及检索出来的嵌入片一起提交给 LLM，LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。

deepsee能做什么

DeepSee 具有以下功能和特点： 1. 可以通过特定的步骤进行使用，包括搜索 www.deepseek.com 并点击“开始对话”，将装有提示词的代码发给 DeepSeek，认真阅读开场白后正式开始对话。 2. 其设计思路包括将 Agent 封装成 Prompt 并储存在文件，通过提示词文件让 DeepSeek 实现同时使用联网功能和深度思考功能，在模型默认能力基础上优化输出质量，设计阈值系统，用 XML 进行规范设定等。 3. 拥有完整的提示词。 4. 深夜发布了大一统模型 JanusPro，将图像理解和生成统一在一个模型中。该模型具有理解和生成图片的两种本领，其核心是 DeepSeek 语言模型，经过了预训练、监督微调、用“精华浓缩法”保存学习成果等特别训练法。它采用 Transformer 大一统模型，具有任务导向、效率考量、架构简洁性等优势，关键设计包括参数共享和注意力机制，具有灵活性。