直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
模型能力测评方法有哪些,比如ragas这种
以下是一些常见的模型能力测评方法: 1. 从模型角度(generation): 回答真实性:评估模型结果的真实性,减少模型幻觉。 回答相关度:衡量结果与问题的相关性,避免南辕北辙。 2. 从检索角度(retrieval): 召回率(recall):考查相关信息在返回的检索内容中的包含程度,越全越好。 准确率(precision):评估返回的检索内容中有用信息的占比,越多越好。 RAGAS 是一个用于 RAG 评估的知名开源库,您可以通过了解和使用。 RAG 具有一定的优势和局限性: 优势: 能够解决大语言模型技术中输出结果的不可预测性、知识的局限性、幻觉问题、数据安全性等问题。 可以让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制大模型生成的文本输出,并且用户可以深入了解 LLM 如何生成最终的结果。 可以和微调结合使用。 局限性: 适合打造专才,不适合打造通才,不适合为模型提供通用领域知识。 难以让模型保持稳定的风格或结构输出,降低 token 消耗等,需要使用微调技术解决。
2025-02-07
模型能力测评方法
以下是关于模型能力测评方法的相关内容: 测评机制: 测评目标:测评三家国产大模型,以同组提示词下 ChatGPT 4.0 生成的内容做对标参照,包括智谱清言(https://chatglm.cn/main/detail)、文心一言 4.0(https://yiyan.baidu.com/)、Kimi Chat(https://kimi.moonshot.cn/chat/)。 能力考量:包括复杂提示词理解和执行(结构化提示词)、推理能力(CoT 表现)、文本生成能力(写作要求执行)、提示词设计能力(让模型设计提示词)、长文本归纳总结能力(论文阅读)。 测评轮次: 第一轮:复杂提示词理解和执行,包括 Markdown+英文 title 提示词测试、Markdown+中文 title 提示词测试、中文 title+自然段落提示词测试。 第二轮:推理能力(CoT 表现),逐步推理任务,遍历 3 个不同类型任务和 4 个大模型。 第三轮:文本生成能力(写作要求执行),根据提示词生成文本任务,遍历 3 个不同类型任务和 4 个大模型。 第四轮:提示词设计能力(让模型设计提示词),按提示词要求生成提示词,逐步推理任务,遍历 3 个不同类型任务和 4 个大模型。 第五轮:长文本归纳总结能力(论文阅读),按提供的长文本(上传或在线)进行归纳总结,逐步推理任务,遍历 3 个不同类型任务和 4 个大模型。 测评过程: 用 5 组提示词分别测试模型的复杂提示词执行能力、推理能力、文本生成能力、用提示词设计提示词的能力、长文本归纳总结能力。每一轮中提示词和问题相同,观察国产三家模型的生成结果,并以 ChatGPT 4.0 生成的内容做对照参考。需要注意的是,本测评是主观需求主观视角,不具有权威性。
2025-02-07
pdf转结构化文档
将 PDF 转换为结构化文档具有一定的复杂性。从计算机的角度看,文档分为有标记文档(如 Microsoft Word 和 HTML 文档)和无标记文档(如 PDF 文档)。PDF 文档未存储结构信息,机器难以读取,将 PDF 表格复制到 Word 时原表格结构常丢失。为使大语言模型能处理无标记文档,需要解析器将散乱字符组织成有结构的连贯文本,理想的 PDF 解析器应具备文档结构识别和在复杂文档布局中保持鲁棒性等关键特征。 此外,Fireworks AI 发布的 Document Inlining 功能可处理非结构化文档,能将 PDF、截图、表格等转换为 LLMs 可理解的结构化文本,具有高质量解析、在复杂文档中精准提取内容、结果清晰专业以及与 OpenAI API 完全兼容且仅需一行代码即可启用等特点。 详细介绍: Fireworks AI: 在线演示: 官方介绍:
2025-02-07
如果想用几张照片,驱动自己的数字人视频,有哪个平台可以搞
以下是一些可以用照片驱动生成数字人视频的平台及使用方法: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 上传后效果如图所示,My Avatar处显示上传的照片。 点开大图后,点击Create with AI Studio,进入数字人制作。 写上视频文案并选择配音音色,也可以自行上传音频。 最后点击Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 点击上面的网址,点击右上角的Create vedio。 选择人物形象,你可以点击ADD添加你的照片,或者使用DID给出的人物形象。 配音时,你可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击Generate vedio就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 点击开始创作,选择自定义照片。 配音时,你可以选择提供文字选择音色,或者直接上传一段音频。 打开绿幕按钮,点击背景,可以添加背景图。 最后,点击生成视频。 4. 出门问问Mobvoi:提供了照片数字人的工作流及语音合成(TTS)API,可参考相关效果展示及工作流作者、创意策划等信息。 5. 剪映数字人“个性化”: 尽管剪映有很多公模数字人,但私模数字人更受欢迎。 使用方法: 第一步打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击open colab就进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的URL就会打开操作界面。 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 第三步:等着自己专属的数字人视频出炉。
2025-02-07
PPT制作、公文写作、企业管理方面提升需要学习那些AI工具
以下是一些有助于提升 PPT 制作、公文写作和企业管理能力的 AI 工具: 1. GPT4:可用于生成文本内容、提供创意和思路。 2. WPS AI:能辅助完成 PPT 的大纲内容、排版和动画等。 3. chatPPT:帮助制作 PPT。 此外,还有以下专门的 AI PPT 工具: 1. Gamma:在线 PPT 制作网站,可通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。 2. 美图 AI PPT:通过输入简单文本描述生成专业 PPT 设计,包含丰富模板库和设计元素。 3. Mindshow:提供智能设计功能,如自动布局、图像选择和文本优化等。 4. 讯飞智文:利用科大讯飞的技术优势,提供智能文本生成、语音输入、文档格式化等功能。 另外,还有以下工具也可用于 PPT 制作: 1. 爱设计 2. 闪击 3. Process ON
2025-02-07
AI智能体是什么意思
AI 智能体是指类似于 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。简单来说,就是拥有各项能力来帮助人们做特定事情的“打工人”。目前有不少大厂推出自己的 AI 智能体平台,如字节的扣子、阿里的魔搭社区等。 AI 智能体包含了自己的知识库、工作流,还可以调用外部工具,再结合大模型的自然语言理解能力,能够完成比较复杂的工作。它的出现是为了解决如 GPT 或文心一言大模型存在的胡编乱造、时效性、无法满足个性化需求等问题。 在 C 端,比如社交方向,用户注册后先捏一个自己的智能体,然后让其与他人的智能体聊天,两个智能体聊到一起后再真人介入,这是一种有趣的场景;还有借 Onlyfans 入局打造个性化聊天的创业公司。 在 B 端,如果字节扣子和腾讯元器是面向普通人的低代码平台,类似 APP 时代的个人开发者,那还有一个机会就是帮助 B 端商家搭建智能体,类似 APP 时代专业做 APP 的。
2025-02-07
deepseek
DeepSeek 是一家具有独特特点和影响力的公司: 1. 其秘方具有硅谷风格: 不是“中国式创新”的产物,不能简单地将其比喻成“AI 界的拼多多”或认为其秘方只是多快好省。 早在 2024 年 5 月 DeepSeekV2 发布时,就以多头潜在注意力机制(MLA)架构的创新在硅谷引发轰动。 是中国最全球化的 AI 公司之一,赢得全球同行甚至对手尊重的秘方也是硅谷风格。 2. V3 可能是 DeepSeek 的 GPT3 时刻,未来发展充满未知但值得期待。 3. 关于提示词 HiDeepSeek: 效果对比:可通过 Coze 做小测试并对比。 使用方法:包括搜索 www.deepseek.com 点击“开始对话”、发送装有提示词的代码、阅读开场白后正式开始对话等步骤。 设计思路:将 Agent 封装成 Prompt 并存储在文件,实现多种功能优化输出质量,设计阈值系统,用 XML 进行规范设定等。 完整提示词:v 1.3。 特别鸣谢:李继刚的【思考的七把武器】提供思考方向,Thinking Claude 是设计灵感来源,Claude 3.5 Sonnet 是得力助手。
2025-02-07
什么是AGI?
AGI 即通用人工智能(Artificial General Intelligence),是指具有人类水平的智能和理解能力的 AI 系统。它有能力完成任何人类可以完成的智力任务,适用于不同的领域,同时拥有某种形式的意识或自我意识。目前还只是一个理论概念,还没有任何 AI 系统能达到这种通用智能水平。 OpenAI 在其内部会议上分享了 AGI 的五个发展等级: 1. 聊天机器人(Chatbots):具备基本对话能力的 AI,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者(Reasoners):具备人类推理水平的 AI,能够解决复杂问题,如 ChatGPT,能够根据上下文和文件提供详细分析和意见。 3. 智能体(Agents):不仅具备推理能力,还能执行全自动化业务的 AI。目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 4. 创新者(Innovators):能够协助人类完成新发明的 AI,如谷歌 DeepMind 的 AlphaFold 模型,可以预测蛋白质结构,加速科学研究和新药发现。 5. 组织(Organizations):最高级别的 AI,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。 在 AI 领域,还分为 ANI(弱人工智能)和 AGI,ANI 得到巨大发展但 AGI 还没有取得巨大进展。ANI 只可做一件事,如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等。而 AGI 能做任何人类可以做的事。更多信息请见(AGI)。
2025-02-07
请问什么是agent?
Agent(智能体)是一种能够在环境中自主感知、思考并采取行动的实体。可以把它想象成一个具有特定目标和行为能力的智能角色,能根据环境变化做出相应的决策和反应。 在不同的场景中,Agent 有不同的具体表现和应用。比如: 从产品角度来看,Agent 可以是一个历史新闻探索向导,有着知识渊博、温暖亲切、富有同情心的性格,主导新闻解析和历史背景分析,还可以为其设计背景故事来使其角色更加生动。 在结合大型语言模型(LLM)的情况下,LLM Agent 能够利用大型语言模型的自然语言处理能力,理解用户的输入,并在此基础上进行智能决策和行动。它由规划、记忆、工具和行动等部分组成。规划负责将复杂任务分解成可执行的子任务,并评估执行策略;记忆包括短期记忆和长期记忆,分别用于存储对话上下文和用户特征及业务数据;工具是感知环境、执行决策的辅助手段,如 API 调用、插件扩展等;行动则是将规划和记忆转换为具体输出的过程,包括与外部环境的互动或工具调用。 在人工智能领域,Agent 智能代理能够自动执行任务,比如搜索信息、监控系统状态或与用户交互。
2025-02-07
当前哪些类型AI智能体做的好
当前在 AI 智能体领域,以下类型表现较好: 1. 在企业搜索、法律研究副驾驶、内容生成等类别中,Menlo Ventures 投资组合公司如是早期突破性的代表。 2. 领先的应用程序构建商如正在建立解决方案,处理之前只能由大量人力来解决的工作流程。 3. 从智能体类型来看: “决策智能体”设计使用语言模型遍历预定义的决策树。 “轨道智能体”为智能体配备更高层次的目标,限制解决空间,要求遵循标准作业程序并使用预先设定的“工具”库。 “通用人工智能体”完全依赖语言模型的推理能力进行所有的计划、反思和纠正。 此外,AGI 分为五个等级: 1. 聊天机器人:具备基本对话能力,依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 推理者:具备人类推理水平,能解决复杂问题,如 ChatGPT。 3. 智能体:不仅具备推理能力,还能执行全自动化业务,但目前许多产品仍需人类参与。 4. 创新者:能够协助人类完成新发明,如谷歌 DeepMind 的 AlphaFold 模型。 5. 组织:最高级别,能够自动执行组织的全部业务流程。
2025-02-07