知識ベースとの対話 - WayToAGI

「AGIへの道」飛書ナレッジベースへ直行 →

ホーム/すべての質問

AGI 即 artificial general intelligence，指通用人工智能，能够做任何人类可以做的事。 OpenAI 在其内部会议上分享了 AGI 的五个发展等级： 1. 聊天机器人（Chatbots）：具备基本对话能力，主要依赖预设脚本和关键词匹配，用于客户服务和简单查询响应。 2. 推理者（Reasoners）：具备人类推理水平，能够解决复杂问题，如 ChatGPT，能根据上下文和文件提供详细分析和意见。 3. 智能体（Agents）：不仅具备推理能力，还能执行全自动化业务，但目前许多 AI Agent 产品在执行任务后仍需人类参与，尚未达到完全智能体的水平。 4. 创新者（Innovators）：能够协助人类完成新发明，如谷歌 DeepMind 的 AlphaFold 模型，可预测蛋白质结构，加速科学研究和新药发现。 5. 组织（Organizations）：最高级别的 AI，能够自动执行组织的全部业务流程，如规划、执行、反馈、迭代、资源分配和管理等。目前，AI 分为 ANI 和 AGI，ANI 得到巨大发展但 AGI 还没有取得巨大进展。ANI 即 artificial narrow intelligence 弱人工智能，只可做一件事，如智能音箱、网站搜索、自动驾驶、工厂与农场的应用等。此外，Web3 和人工智能初创公司 AGII 获得 1500 万美元融资。AGII 是一个 AI 驱动的平台，赋予用户轻松生成各个领域高质量内容的能力，提供一系列 AI 生成器和魔法工具，包括文本、图像、代码、聊天机器人、语音转文本和配音等功能。

和Upscayl软件一样好用的软件推荐一下

以下是一些和 Upscayl 软件一样好用的软件推荐：：这是一个功能强大的开源简历生成器，拥有简洁美观的 UI 设计，并支持导入与解析 PDF 简历文件，能实时更新简历数据，帮助您快速撰写出清晰直观的个人简历。：可用于二维码设计，能给二维码添加各种图案、文字、图像、更改背景颜色等操作。：微软开源的全新开发工具，在 Windows 系统中内置了可视化控制面板。：一款可视化爬虫软件。使用图形化界面，无代码设计和执行爬虫任务。开发者只需在网页上选择爬取内容，并根据提示框操作，即可完成爬虫设计和执行。：开源的多功能 GUI 网络安全爬虫工具，专为网络安全专业人员设计，目前支持 Windows 和 Linux 操作系统。：颜值颇高的 HTTP 调试工具，可以用它来编写 API 接口请求、完善 API 描述文档、测试服务器响应、生成客户端代码等工作，并支持多个团队成员实时协作。：开源的数据可视化分析神器，操作简单易上手，开箱即用。

我想要学AI视频，我应该怎么做

以下是学习 AI 视频的一些建议和资源： 1. 入门教程：您可以查看。学习。 2. 交流群：如需学习 AI 视频、参与 AI 视频挑战赛或参与 AI 视频提示词共创，可直接扫二维码或联系三思或小歪【备注：AI 视频学社】，但必须有 AI 视频账号才能进群，请勿随便申请好友。 3. 直播： AI 视频学社每周 1 次直播（周五直播），例如。 4. 实践建议：从简单创作开始，如生成零散视频片段或图片进行混剪，选用现成音乐并根据节奏简单剪辑，顺道学习主流创意软件操作。在成功产出简单作品后，尝试完成更完整的工作流，比如：选题→剧本→分镜描述→文生图→图生视频→配音配乐→剪辑后期。此外，在 AI 视频学社，小伙伴们可以通过参与每周举办的比赛快速学习相关知识，每周有高手直播分享前沿知识，不定期组织线上或线下活动，大家一起学习最新软件和知识，学习图生视频、视频生视频等技巧。

哪个大模型找期刊文献最好用

目前在查找期刊文献方面，不同的大模型各有特点。大模型的特点包括：架构多样：如 encoderonly 适用于自然语言理解任务，encoderdecoder 用于翻译和摘要，decoderonly 擅长自然语言生成任务。预训练数据量大：往往来自互联网上的论文、代码、公开网页等，通常用 TB 级别的数据进行预训练。参数众多：如 Open 在 2020 年发布的 GPT3 就有 170B 的参数。但对于哪个大模型找期刊文献最好用，没有明确的定论。不过，您可以关注一些常见的大模型，如 GPT 系列等，并根据实际需求和使用体验来判断。

多模态的应用场景

多模态的应用场景广泛，主要包括以下方面： 1. 娱乐领域：如与 AI 导师进行视频聊天、与 AI 合作迭代和编写电视剧剧本等，为消费者提供更加引人入胜、连贯和全面的体验。 2. 内容生成：改变娱乐、学习与发展以及跨各种消费者和企业用例的内容生成。 3. 工具使用：使大语言模型能够使用设计给人类使用但没有自定义集成的工具，例如传统的企业资源计划（ERP）系统、桌面应用程序、医疗设备或制造机械。 4. 视频处理：包括视频搜索，通过描述性语言在数小时的视频内容中快速找到用户想要的瞬间；视频文本生成，从视频生成文本摘要、关键点、标签和标题等；定制化模型，允许用户微调自己的模型以满足特定领域需求。 5. 落地场景：如广告插入与内容审核，区分视频内容的性质；流媒体内容分析，自动生成媒体分析报告；运动赛事视频分析，帮助精彩瞬间捕捉、技术动作分析、比赛策略分析等。 6. 扩展到物理现实：通过机器人、自动驾驶车辆和其他需要与物理世界实时交互的应用程序，将大语言模型扩展到我们自己的物理现实中。

最近国内外有什么新出的AI产品

以下是国内外新出的一些 AI 产品：图像类产品：国内：可灵：由快手团队开发，用于生成高质量的图像和视频，图像质量高，最初采用内测邀请制，现向所有用户开放，价格相对较高，重度用户年费可达几千元，平均每月使用成本在 400 到 600 元，也有临时或轻度使用的免费点数和较便宜包月选项。通义万相：在中文理解和处理方面表现出色，可选择多种艺术和图像风格，生成图像质量高、细节丰富，操作界面简洁直观、用户友好度高，能与阿里其他产品和服务无缝整合，重点是现在免费，每天签到获取灵感值即可，但存在某些类型图像无法生成、处理非中文语言或国际化内容不够出色、处理多元文化内容可能存在偏差等局限性。搜索类产品：国内：大模型厂商推出的 ChatBot 产品（智谱清言、Kimi Chat、百小应、海螺 AI 等），搜索厂商或创业团队推出的 AI 搜索产品（360 AI 搜索、秘塔、博查 AI、Miku 等）。海外：Perplexity、You、Phind 等。中国公司和团队的出海产品：ThinkAny、GenSpark、Devv 等。 PPT 类产品：国内：爱设计 PPT，背后有实力强大的团队，对市场需求有敏锐洞察力，把握住了 AI 与 PPT 结合的市场机遇，已确立市场领先地位，代表了当前国内 AI 辅助 PPT 制作的最高水平，能提高制作效率并保证高质量输出。

训练以及部署微调模型

以下是关于训练以及部署微调模型的相关信息：创建微调模型：假设您已准备好训练数据。使用 OpenAI CLI 开始微调工作，需指定从哪个 BASE_MODEL（如 ada、babbage、curie 或 davinci）开始，可使用后缀参数自定义微调模型的名称。运行命令后会进行以下操作： 1. 使用文件 API 上传文件（或使用已上传的文件）。 2. 创建微调作业。 3. 流式传输事件直到作业完成，这通常需要几分钟，但如果队列中有很多作业或数据集很大，可能需要数小时。每个微调工作都从默认为 curie 的基本模型开始，模型的选择会影响性能和成本。您的模型可以是 ada、babbage、curie 或 davinci，可访问定价页面了解微调费率的详细信息。开始微调作业后，可能需要一些时间才能完成。工作可能排在其他工作之后，训练模型可能需要几分钟或几小时，具体取决于模型和数据集的大小。若事件流中断，可通过运行特定命令恢复。工作完成后，会显示微调模型的名称。此外，还可以列出现有作业、检索作业状态或取消作业。 GPT 助手的训练：在有监督的微调阶段，收集少量但高质量的数据集，要求人工承包商收集提示和理想响应的数据，通常是几万个或类似数量。然后对这些数据进行语言建模，算法不变，只是训练集从互联网文档变为问答提示响应类型的数据。训练后得到有监督的微调模型（SFT 模型），可实际部署。大型语言模型的微调：一旦有了基础模型，进入计算成本相对较低的微调阶段。编写标签说明，明确助手的表现期望，雇佣人员创建文档，如收集 100,000 个高质量的理想问答对来微调基础模型，此过程可能只需一天。然后进行大量评估，部署模型并监控表现，收集不当行为实例并纠正，将正确答案加入训练数据，重复此过程。由于微调成本较低，可每周或每天进行迭代。例如 Llama2 系列，Meta 发布时包括基础模型和助手模型。基础模型不能直接使用，助手模型可直接用于回答问题。若想自己微调，Meta 完成的昂贵的第一阶段结果可提供很大自由。

理解LoRA训练以及参数

LoRA 训练的参数主要包括以下方面： 1. 学习步数：指 AI 对每张图片的学习次数。二次元图片的 repeat 一般在 10 15，写实人物图片的 repeat 一般在 30 50，真实世界的景观场景可能要达到 100。repeat 值越高，AI 越能读懂图片，但图片精细度越高，学习步数也要越高。 2. 循环次数：AI 将所有图片按照学习步数学习一轮就是一次循环，循环次数就是将这个过程重复的遍数。一般数值在 10 20 之间，次数并非越多越好，过多会导致过拟合。总的训练步数 = 图片张数×学习步数×循环次数。 3. 效率设置：主要控制电脑的训练速度，可保持默认值，也可根据电脑显存微调，但要避免显存过载。 4. DIM：不同场景有不同的推荐值。如二次元一般为 32，人物常见为 32 128，实物、风景则≥128。DIM 为 64 时，输出文件一般为 70MB +；DIM 为 128 时，输出文件一般为 140MB + 。 5. 样图设置：主要控制训练过程中的样图显示，可实时观测训练效果。“sample every n steps”为 50 代表每 50 步生成一张样图，prompts 提示词可预设效果或自定义。 6. 并行数量：代表 AI 同一时间学习的图片数量。数值越大，训练速度越快，内存占用越大，收敛得慢；数值越小，训练速度越慢，内存占用越小，收敛得快。以 512×512 的图片为例，显存小于等于 6g，batch size 设为 1；显存为 12g 以上，batch size 可设为 4 或 6。增加并行数量时，通常也会增加循环次数。 7. 质量设置：学习率：指 AI 学习图片的效率，过高会过拟合，过低会不拟合。1e 4 即 1 除以 10 的 4 次方，等于 0.0001；1e 5 即 1 除以 10 的 5 次方，等于 0.00001。一般保持默认，如需调整可点击数值旁的加减号。网格维度：network dim 决定出图精细度，数值越高有助于 AI 学会更多细节，但数值越大学习越慢，训练时间越长，易过拟合。

以下是为新手提供的 AI 学习教程： 1. 了解 AI 基本概念：建议阅读「」部分，熟悉 AI 的术语和基础概念，包括其主要分支（如机器学习、深度学习、自然语言处理等）以及它们之间的联系。浏览入门文章，了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅：在「」中，能找到为初学者设计的课程，特别推荐李宏毅老师的课程。通过在线教育平台（如 Coursera、edX、Udacity）上的课程，按照自己的节奏学习，并有机会获得证书。 3. 选择感兴趣的模块深入学习： AI 领域广泛（比如图像、音乐、视频等），可根据自己的兴趣选择特定的模块进行深入学习。掌握提示词的技巧，它上手容易且很有用。 4. 实践和尝试：理论学习之后，实践是巩固知识的关键，尝试使用各种产品做出自己的作品。在知识库有很多大家实践后的作品、文章分享，欢迎实践后的分享。 5. 体验 AI 产品：与现有的 AI 产品进行互动，如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人，了解它们的工作原理和交互方式，获得对 AI 在实际应用中表现的第一手体验，并激发对 AI 潜力的认识。记住，学习 AI 是一个长期的过程，需要耐心和持续的努力。不要害怕犯错，每个挑战都是成长的机会。随着时间的推移，您将逐渐建立起自己的 AI 知识体系，并能够在这一领域取得自己的成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法，设计自己的学习路径。

全量微调与少量参数微调

在参数规模的角度，大模型的微调分为全量微调（FFT，Full Fine Tuning）和少量参数微调（PEFT，ParameterEfficient Fine Tuning）两条技术路线。全量微调是对全量的模型参数进行全量的训练。少量参数微调则只对部分模型参数进行训练。从成本和效果的综合考虑，PEFT 是目前业界较流行的微调方案。微调是在较小的、特定领域的数据集上继续 LLM 的训练过程，通过调整模型本身的参数，而非像提示工程和 RAG 那样仅更改提示，能大幅提高模型在特定任务中的性能。微调有两大好处：一是提高模型在特定任务中的性能，可输入更多示例，经过微调的模型可能会失去一些通用性，但对于特定任务会有更好表现；二是提高模型效率，实现更低的延迟和成本，可通过专门化模型使用更小的模型，且只对输入输出对进行训练，舍弃示例或指令进一步改善延迟和成本。关于微调的具体实现，LoRA 微调脚本见：。在微调的超参数方面，选择了适用于一系列用例的默认超参数，唯一需要的参数是训练文件。调整超参数通常可产生更高质量输出的模型，可能需要配置的内容包括：model（要微调的基本模型的名称，可选择“ada”“babbage”“curie”或“davinci”之一）、n_epochs（默认为 4，训练模型的时期数）、batch_size（默认为训练集中示例数量的 0.2%，上限为 256）、learning_rate_multiplier（默认为 0.05、0.1 或 0.2，具体取决于 final batch_size）、compute_classification_metrics（默认为假，若为 True，为对分类任务进行微调，在每个 epoch 结束时在验证集上计算特定于分类的指标）。要配置这些额外的超参数，可通过 OpenAI CLI 上的命令行标志传递。 OpenAI 官方微调教程：