「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
大模型 泛化能力
大模型的泛化能力,用不太通俗的话说是“指模型在未曾见过的数据上表现良好的能力”,通俗来讲就是“举一反三”的能力。人类是泛化能力很强的物种,我们不需要见过世界上的每一只猫,就能认识猫这个概念。 例如在多模态大模型领域,像 Shikra Chen 等人介绍的模型展示了值得称赞的泛化能力,可以有效处理看不见的设置。在关于大模型的思考与探讨中,李继刚认为微调垂类模型可能使大模型泛化能力下降,需分场景看待。
2025-02-27
知识图谱构建
知识图谱是一种揭示实体之间关系的语义网络,能够对现实世界的事物及其相互关系进行形式化描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎能力,增强用户搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱构建的关键技术包括: 1. 知识抽取:通过自动化技术抽取可用的知识单元,如实体抽取(命名实体识别)、关系抽取(提取实体间关联关系)、属性抽取(采集特定实体的属性信息)。 2. 知识表示:包括属性图、三元组等。 3. 知识融合:在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等,包括实体对齐(消除实体冲突等不一致性问题)、知识加工(统一管理知识)、本体构建(明确定义概念联系)、质量评估(计算知识置信度)、知识更新(迭代扩展知识)。 4. 知识推理:在已有知识库基础上挖掘隐含知识。 在 LLM 落地思考方面,NLP 与知识图谱是主要的落地类型,但存在一些问题。如实现某个 NLP 任务时,需要大量人工标注和长时间训练,交付后较难新增意图和泛化任务,有时使用句式规则方式更好维护更新;构建知识图谱复杂,需与行业专家深度讨论,预见企业长远业务发展制定 schema,周期长且易与业务错位。而 LLM 出现后对 NLP、NLG、KG 有较大提升,带来更好更多的落地可能。 在以问题驱动的 AI+内容创作中,随着学习深入,可使用大模型帮助构建和扩展知识图谱。
2025-02-27
知识图谱
知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。它于 2012 年 5 月 17 日由 Google 正式提出,初衷是提高搜索引擎的能力,增强用户的搜索质量和体验,实现从网页链接到概念链接的转变,支持按主题检索和语义检索。 知识图谱的关键技术包括: 1. 知识抽取: 实体抽取:通过命名实体识别从数据源中自动识别命名实体。 关系抽取:从数据源中提取实体之间的关联关系,形成网状知识结构。 属性抽取:从数据源中采集特定实体的属性信息。 2. 知识表示:包括属性图和三元组。 3. 知识融合: 实体对齐:消除异构数据中的实体冲突、指向不明等不一致性问题。 知识加工:对知识统一管理,形成大规模的知识体系。 本体构建:以形式化方式明确定义概念之间的联系。 质量评估:计算知识的置信度,提高知识质量。 知识更新:不断迭代更新,扩展现有知识,增加新知识。 4. 知识推理:在已有的知识库基础上挖掘隐含的知识。 在国家人工智能产业综合标准化体系建设指南中,知识图谱标准规范了知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、知识图谱交付与应用、知识图谱系统架构与性能要求等标准。
2025-02-27
ai生成ppt 的教程
以下是几种使用 AI 工具生成 PPT 的方法: 1. 闪击: 网址:https://ppt.isheji.com/?code=ysslhaqllp&as=invite 选择模版 输入大纲和要点:由于闪击的语法和准备的大纲内容可能有偏差,可参考官方使用指南:https://zhuanlan.zhihu.com/p/607583650,将大纲转换成适配闪击的语法。 生成 PPT:点击文本转 PPT,并在提示框中选择确定。 在线编辑 导出:导出有一些限制,PPT 需要会员才能导出。 2. Process ON: 网址:https://www.processon.com/ 输入大纲和要点: 导入大纲和要点: 手动复制,相对比较耗时间。 导入方式: 复制最终大纲的内容到本地的 txt 文件后,将后缀改为.md。如果看不见后缀,可以自行搜索开启后缀。 打开 Xmind 软件,将 md 文件导入 Xmind 文件中。 Process ON 导入 Xmind 文件,以导入方式新建思维导图。 输入主题自动生成大纲和要求:新增思维导图,输入主题,点击 AI 帮我创作。 选择模版并生成 PPT:点击下载,选择导入格式为 PPT 文件,选择模版,再点击下载。如果喜欢用 Process ON 的小伙伴,没有会员,可以某宝买个一天会员。 3. GPT4、WPS AI 和 chatPPT 结合: 流程:先让 GPT4 生成 PPT 大纲,然后把大纲导入到 WPS 当中,启用 WPS AI 一键生成 PPT。为了让 PPT 更有灵动性和观感,让 chatPPT 添加一些动画,最后手动修改一些细节,比如字体、事实性错误等。
2025-02-27
免费的数字人培训制作软件
以下为您介绍一些免费的数字人培训制作软件: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 上传后效果如图所示,My Avatar处显示上传的照片。 点开大图后,点击Create with AI Studio,进入数字人制作。 写上视频文案并选择配音音色,也可以自行上传音频。 最后点击Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 点击上面的网址,点击右上角的Create vedio。 选择人物形象,你可以点击ADD添加你的照片,或者使用DID给出的人物形象。 配音时,你可以选择提供文字选择音色,或者直接上传一段音频。 最后,点击Generate vedio就可以生成一段视频。 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 点击开始创作,选择自定义照片。 配音时,你可以选择提供文字选择音色,或者直接上传一段音频。 打开绿幕按钮,点击背景,可以添加背景图。 最后,点击生成视频。 此外,在剪映中也可以制作数字人: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费的、适合的数字人形象,比如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,然后可点击预览按钮查看效果。 为让视频更美观,可删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并点击“导入”按钮,选择本地图片上传。选择图片后点击右下角加号将其添加到视频轨道上(会覆盖数字人)。此时书架图片会在视频轨道下方添加新轨道,为让图片在整个视频播放时都显示,可点击轨道最右侧竖线向右拖拽至视频最后。
2025-02-27
什么是agi
AGI 即人工通用智能,通常被定义为一种能够完成任何聪明人类所能完成的智力任务的人工智能,其能力不局限于特定领域。 例如,OpenAI 原计划在 2027 年发布的 Q2025(GPT8)将实现完全的 AGI,但因埃隆·马斯克的诉讼而被推迟。GPT3 及其半步后继者 GPT3.5 在某种程度上是朝着 AGI 迈出的巨大一步,早期的模型则不具备真正连贯回应的能力。 AGI 的出现被视为人类历史上具有转折意义的事件,当 AGI 真正实现并可能迅速发展为超人工智能(ASI)时,人类社会将在随后的二十年里经历深刻变革,包括社会结构、价值观、权力格局、人类角色等多个方面。 我们的使命是确保 AGI 造福全人类,呈现人工通用智能特征的系统正浮现,它可以被看作是人类进步脚手架上的另一个工具,能为人类带来治愈所有疾病、有更多时间与家人共享、并能充分发挥创造潜力等美好愿景。
2025-02-27
多模态大模型 原理是什么?
多模态大模型的原理如下: 基于大圆模型,能够识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator 等部件组成,左侧进行多模态理解,右侧生成输出。 典型的多模态大模型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为基于投影的、基于查询的和基于融合的三类,前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,最后一种类型则在 LLM 内部实现特征级融合。
2025-02-27
如何调用ai的模型
以下是关于如何调用 AI 模型的相关内容: Liblibai 简易上手教程: 1. 首页 模型广场:发布了其他用户炼成的模型。收藏和运行数较多的模型在首页前排,点击可查看详细信息,将模型加入模型库可用于生图时快速调用。模型详情下方有返图区。 Checkpoint:生图必需的基础模型,任何生图操作必须选定一个 Checkpoint 模型才能开始。注意与 lora 的区别,两者在模型广场混着展示,Checkpoint 必选,lora 可选可不选。 lora:低阶自适应模型,可理解为 Checkpoint 的小插件,对生图的面部、材质、物品等细节有控制作用,可加入模型库。 VAE:编码器,功能类似于滤镜,调整生图饱和度,选择 840000 即可。 CLIP 跳过层:用于生成图片后控制、调整构图变化,一般设为 2,早期不用过多关注。 Prompt 提示词:想要 AI 生成的内容,需学习。 负向提示词 Negative Prompt:想要 AI 避免产生的内容,需学习。 采样方法:决定让 AI 用何种算法生图。 COW 项目: 1. 调用千问系列的模型:可以直接使用 key、选择 model 进行调用,即直接调用某一个大模型。 2. 调用应用能力:阿里云百炼的“应用”服务。当需要更多能力如工作流、搜索等时,调用百炼的“应用”。在百炼平台里的“应用”类似于 Coze 中的“bot”或 ChatGPT 的 GPTs 概念。有两种调用方式: 直接调用模型:对接简单,调试不方便。 调用应用(bot):对接相对麻烦,调试简单,推荐使用。修改和调整 Prompt 时,只需要在“百炼”应用里进行调试。 AI 调用外部工具: AI 本身不会直接调用工具,也不是依赖关键词识别。实际流程为: 1. 程序调用 AI 接口,AI 生成 JSON 结构化数据,告知是否需要工具、使用何种工具及参数。 2. 程序解析 JSON 并调用工具,获取结果后返回 AI。 3. AI 根据工具返回的数据生成最终回答。
2025-02-27
ai在档案领域的部署
目前关于 AI 在档案领域的部署,知识库中暂时没有相关内容。但一般来说,AI 在档案领域的部署可能包括利用自然语言处理技术对档案内容进行智能检索和分类,通过机器学习算法对档案的重要性和价值进行评估,以及运用图像识别技术对档案中的图片、图表等进行数字化处理等方面。
2025-02-27
chatgpt
ChatGPT 是一种基于 GPT(生成式预训练变换器)架构的人工智能模型,由 OpenAI 开发。 它的工作原理是:从网络、书籍等来源获取大量人类创作的文本样本,然后训练神经网络生成“类似”的文本。具体来说,让它能够从“提示”开始,然后继续生成“类似于训练内容”的文本。 ChatGPT 中的实际神经网络由非常简单的元素组成,尽管数量庞大。其基本操作是为每个新单词(或单词部分)生成“输入”,然后将其“通过其元素”(没有任何循环等)。 ChatGPT 在生成文本方面表现出色,结果通常接近人类所产生的。但它也有一些限制: 1. 在训练(学习)方面,其使用的策略可能与大脑不同,效率也可能较低。 2. 内部没有“循环”或“重新计算数据”,这限制了其计算能力。 目前 ChatGPT 官网有两个版本,GPT3.5 是免费版本,拥有账号即可使用,但智能程度不如 GPT4。GPT4 的 PLUS 套餐收费标准是 20 美金一个月,还有团队版和企业版,功能更多、限制更少,但费用更贵,一般推荐使用 PLUS 套餐。 在注册 ChatGPT 账号之前,建议先注册一个谷歌账号,因为国外很多软件支持谷歌账号一键登录,目前注册谷歌账号支持国内手机号码和国内邮箱验证,过程简单。
2025-02-27