「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
AGI的含义
AGI 即 artificial general intelligence,指的是通用人工智能。 它具有以下特点和表现: 能够做任何人类可以做的事。 是具有人类水平的智能和理解能力的 AI 系统,有能力完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。 OpenAI 提出 AGI 有五个发展等级,分别为: 聊天机器人:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 推理者:具备人类推理水平,能够解决复杂问题,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型,可以预测蛋白质结构,加速科学研究和新药发现。 组织:最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 目前 AGI 还没有取得巨大进展,仍处于研究和发展阶段。
2025-01-02
RAG-Fusion
RAG(检索增强生成)是由 Lewis 等人于 2020 年中期提出的一种大语言模型领域的范式。 大型语言模型如 GPT 系列虽在自然语言处理方面取得显著成功,但仍存在局限性,如处理特定领域或高度专业化查询时易产生错误信息或“幻觉”,尤其在查询超出训练数据或需要最新信息时。 RAG 将外部数据检索整合到生成过程中,包括初始的检索步骤,查询外部数据源获取相关信息后再回答问题或生成文本,这不仅为后续生成提供信息,还能确保回答基于检索证据,从而显著提高输出的准确性和相关性。其演进轨迹分为四个阶段。 在 2017 年创始阶段,重点是通过预训练模型吸收额外知识增强语言模型。 RAG 能解决大语言模型知识局限性、幻觉问题和数据安全性等问题,可让大模型从权威知识源检索组织相关信息,更好控制文本输出,且能与微调结合使用。但 RAG 不适合教模型理解广泛领域或学习新语言、格式或样式。 LangChain 是用于构建高级语言模型应用程序的框架,提供一系列工具和组件,RAG 作为技术可在 LangChain 框架内实施利用,两者关系包括:LangChain 提供实现 RAG 必需的工具和组件;允许通过模块化组件构建 RAG 应用;简化 RAG 应用开发过程;利用其实现 RAG 可提高性能;支持构建复杂的 RAG 应用。
2025-01-02
rag高级优化
以下是关于 RAG 高级优化的相关内容: RAG 是一种结合信息检索和文本生成能力的技术,由检索器和生成器两部分组成。在生成式 AI 的发展中,RAG 发挥着重要作用。 在模型开发方面,新兴的推理技术如连锁思考、树状思考和反射正在提高模型执行更复杂推理任务的能力,缩小客户期望与模型能力的差距。迁移学习技术如 RLHF 和微调变得更加可用,开发者可从 Hugging Face 下载开源模型并微调以实现优质性能。检索增强生成(RAG)引入关于业务或用户的上下文,减少幻觉并增加真实性和实用性,像 Pinecone 这样的公司的向量数据库成为 RAG 的基础设施支柱。新的开发者工具和应用框架为创建更先进的 AI 应用提供了帮助。 对于 RAG 的改进策略和方法,在检索有用信息方面,可通过优化索引来实现。比如按照子部分索引,将文本块再拆分为较小的文本进行多次索引,适用于有多个主题和冲突信息的复杂长文本;按照文本框可以回答的问题索引,让 LLM 生成假设性问题用于索引,适用于用户问题不明确的场景;按照文本块的摘要进行索引,适用于文本框中有多余或无关细节的情况。此外,在重排 rerank 方面,大部分场景下选择最相似的信息即可。 在商业化问答场景中,有时大模型的回答会不准确,如出现牛头不对马嘴、报价错误、胡编乱造等情况。优化 AI 更准确回答问题的过程称为 RAG,了解从“问题输入”到“得到回复”的过程,针对每个环节逐个调优,可达到最佳效果。
2025-01-02
RAG优化
RAG(RetrievalAugmented Generation,检索增强生成)是一种结合检索和生成能力的自然语言处理架构。 大语言模型(LLM)需要 RAG 进行检索优化,原因在于 LLM 存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,对其接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在黑盒、不可控及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,无学习风险。 2. 数据库的数据更新敏捷,可解释且不影响原有知识。 3. 数据库内容明确、结构化,结合模型理解能力可降低大模型输出出错可能。 4. 知识库存储用户数据便于管控隐私,且可控、稳定、准确。 5. 数据库维护可降低大模型训练成本。 在商业化问答场景中,优化 AI 更准确回答问题的过程称为 RAG。RAG 由检索器和生成器组成,检索器从外部知识中找到相关信息,生成器利用这些信息生成精确连贯的答案,适合处理需要广泛知识的任务。 目前,业界针对 RAG 的优化主要围绕“问题输入”“检索相关信息”“生成回复”这三个环节开展,如通过 COT 等方式提升 LLM 对问题的理解程度,使用特定方式提升语义搜索准确率,选择和优化 embedding 算法保留原始数据信息。但即便每个环节优化到 90%,最终准确率也只有 72%。有一种不用向量也可以 RAG 的方法,基于结构化数据和 LLM 的交互,具有准确、高效、灵活、易扩展等优势。
2025-01-02
DeepSeek-V2是谁开发的
DeepSeekV2 是由 60 位专家混合开发的开源模型。它具有 2360 亿参数,其中 21B 在生成过程中被激活。在 MTBench 上表现优异,中文能力强且性价比高。详细介绍可参考:https://xiaohu.ai/p/7468
2025-01-02
多模态大模型是什么意思
多模态大模型(MLLM)是一种在统一框架下,集成多种不同类型数据处理能力的深度学习模型,这些数据包括文本、图像、音频和视频等。通过整合多样化的数据,MLLM 能够更全面地理解和解释现实世界中的复杂信息,在面对复杂任务时表现出更高的准确性和鲁棒性。其架构通常包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。连接器大致可分为基于投影的、基于查询的和基于融合的三类。 Google 的人工智能多模态大模型叫 Gemini,是 Google DeepMind 团队开发的。Gemini 不仅支持文本、图片等提示,还支持视频、音频和代码提示,能够理解和处理几乎任何输入,结合不同类型的信息,并生成几乎任何输出,被称为 Google 迄今为止最强大、最全面的模型,从设计之初就支持多模态,能够处理语言、视觉、听觉等不同形式的数据。 学习多模态大模型很有必要,因为它可以从图像中提取文本,理解图像或视频中发生的事情,识别物体、场景甚至情绪。例如,有人想为猫买新衣服,可给模型提供猫的图片和文本提示,模型会给出适合猫的衣服建议;在学生解决物理问题的例子中,模型能根据包含问题和答案的图像以及文本提示,进行推理并判断答案是否正确。输入可以是文本、图像、音频的混合,顺序很重要。
2025-01-02
wps AI 可以辅助一些财务工作吗
WPS AI 可以辅助一些财务工作。生成式 AI 能够帮助金融服务团队改进内部流程,简化财务团队的日常工作。具体表现为: 1. 预测方面:帮助编写 Excel、SQL 和 BI 工具中的公式和查询,实现分析自动化,发现模式,从更广泛、更复杂的数据集中为预测建议输入,并建议如何适应模型以支持公司决策。 2. 报告方面:自动创建文本、图表、图形等内容,并根据不同示例调整报告,无需手动整合数据和分析到外部和内部报告中。 3. 会计和税务方面:综合、总结并就税法和潜在扣除项提出可能的答案。 4. 采购和应付账款方面:帮助自动生成和调整合同、采购订单和发票以及提醒。
2025-01-02
ai换装,目前主流工具有哪些
目前主流的 AI 换装工具包括:InterAlia(https://interalia.vcflab.org/)。需要注意的是,虽然底层都是大模型,但 AI 工具各有侧重,不同公司也会进行各自的优化。关于每一种工具的详细入门、讲解和应用,WayToAIG 已经分好了类目。
2025-01-02
提示词写作
以下是关于提示词写作的相关内容: 写提示词(prompt)是一个关键步骤,决定了 AI 模型如何理解并生成文本。以下是一些编写提示词的要点和方法: 1. 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文:若任务需特定背景知识,提供足够信息。 3. 使用清晰语言:简单、清晰描述,避免模糊或歧义词汇。 4. 给出具体要求:如有格式或风格要求,在提示词中明确指出。 5. 使用示例:如有特定期望结果,提供示例帮助模型理解需求。 6. 保持简洁:避免过多信息导致模型困惑。 7. 使用关键词和标签:有助于模型理解任务主题和类型。 8. 测试和调整:生成文本后检查结果,根据需要调整提示词。 对于特定的模型,如 PixelDance V1.4: 写好 prompt 对视频生成效果重要,用简洁准确自然语言描述想要的变化,避免描述静止部分。 上传高清高质量图片,特色包括多个连续动作、自由运镜控制、多镜头切换。生成不符合预期时,修改提示词,换成具象描述,删除不重要部分,重要内容前置。擅长提示词写作可关闭【提示词增强】,新手推荐打开。 在 SD 模型中: 根据想画内容写提示词,多个提示词用英文半角符号隔开。 概念性、大范围、风格化关键词写在前,叙述画面内容其次,最后是细节关键词。 每个词语在模型中的自带权重可能不同,特异性强、措辞具体的关键词效果更好。 可使用括号人工修改提示词权重。
2025-01-02
有什么模拟面试AI助手吗
以下为您介绍一些模拟面试的 AI 助手: 1. 沃顿商学院提供的模拟创建器:适用于 GPT4 和 Gemini Advanced。您可以将其设定为一位精通为学生设计角色扮演场景的 AI 主持人,帮助学生练习谈判、面试、演讲等技能。它会先自我介绍,然后提问了解学员背景和水平,提供不同场景选项,在模拟前描绘场景,模拟中代入学员对手,结束后给出反馈和改进建议。 2. 智联招聘的面试模拟功能:利用自然语言处理和机器学习技术,模拟面试官提问,为求职者提供面试练习和反馈。 此外,您还可以通过以下步骤在网站上增加一个 AI 助手: 1. 点击打开函数计算应用模板,选择直接部署、填写百炼应用 ID 以及 APIKEY,其他表单项保持默认,点击创建并部署默认环境,等待项目部署完成。 2. 应用部署完成后,在应用详情的环境信息中找到示例网站的访问域名,点击查看确认示例网站部署成功。 3. 在网站的 html 文件中插入几行代码:回到应用详情页,在环境详情的最底部找到函数资源,点击函数名称,进入函数详情页。在代码视图中找到 public/index.html 文件,取消相关代码注释,最后点击部署代码,等待部署完成。重新访问示例网站页面即可查看效果,网站右下角会出现 AI 助手图标,点击即可唤起。
2025-01-02