知識ベースとの対話 - WayToAGI

「AGIへの道」飛書ナレッジベースへ直行 →

ホーム/すべての質問

RAG技术基本了解

RAG（Retrieval Augmented Generation，检索增强生成）是一种结合信息检索和文本生成能力的技术，主要用于处理需要广泛知识的任务，如问答系统，能够提供详细而准确的回答。其基本流程包括以下几个步骤： 1. 文档加载：从多种不同来源加载文档，如PDF 在内的非结构化数据、SQL 在内的结构化数据以及 Python、Java 之类的代码等。 2. 文本分割：文本分割器把文档切分为指定大小的块，称为“文档块”或者“文档片”。 3. 存储：涉及将切分好的文档块进行嵌入转换成向量的形式，并将 Embedding 后的向量数据存储到向量数据库。 4. 检索：通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出：把问题以及检索出来的嵌入片一起提交给 LLM（大语言模型），LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 RAG 由两部分组成：一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息，生成器则利用这些信息来制作精确和连贯的答案。在给定一个用户的输入（如问题或话题）时，RAG 会从数据源中检索出相关的文本片段作为上下文，然后将用户输入和检索到的上下文拼接成完整输入传递给大模型，并从大模型的输出中提取或格式化所需信息返回给用户。

以下是关于最新 AI 赚钱的一些信息：从 GPTs/GLMs 如何赚钱谈起：AI 应用的曙光在哪？大多数人通过 GPTs/GLMs 赚钱较难，文章将从一个 AI 产品经理的角色复盘 2023 年的所见所闻所感来聊聊 AI 赚钱（应用落地）这件事情。 2023 年，让您月赚 5w 的 48 个 AI 工具：包括 AI 研究工具（如 Claude、ChatGPT 等）、图片处理（如 DallE 等）、版权写作（如 Rytr 等）、设计（如 Canva 等）、网站搭建（如 10Web 等）、视频处理（如 Klap 等）、音频处理（如 Murf 等）、SEO 优化（如 Alli AI 等）、Logo 设计（如 Looka 等）、聊天机器人（如 Droxy 等）、自动化工具（如 Make 等）、市场营销等方面的工具。 3 月动态｜23 个 AI 新产品： Fixie.ai 是获得 1700 万美元种子轮融资的，由 LLM 驱动的，与外部系统进行交互的代理，旨在将 LLM 与企业数据、系统与工作流相链接。 Regex.ai 是一款基于 AI 的正则表达式自动生成工具，开箱即用，所见即所得，选择数据即可生成正则表达式，提供多种数据提取方式。 Enhance AI 是一分钟内在产品内集成最先进的 LLM（目前是 OpenAI GPT 模型）的低/无代码工具。

RAG，Agent 与小模型

以下是关于 RAG、Agent 与小模型的相关知识： Agent： Agent 是大模型的一个热门发展方向。中间的“智能体”通常是 LLM 或大模型，通过为其增加工具、记忆、行动、规划这四个能力来实现。目前行业里主要用到的是 langchain 框架，它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。比如长期记忆，就是给大模型一个数据库工具让其往里记录重要信息；规划和行动则是在大模型的 prompt 层做逻辑设计，如将目标进行拆解并输出不同的固定格式 action 指令给工具。 RAG：向量相似性检索，可放在 system prompt 里或通过 tools 触发检索。当有 Action 时，触发 tool_calls 标记，进入请求循环，拿模型生成的请求参数进行 API request，再把结果返回给大模型进行交互；没有 tool_calls 标记时，循环结束。大语言模型存在输出结果不可预测、知识局限性、幻觉问题和数据安全性等问题，RAG 是解决这些问题的有效方案。它能让大模型从权威的、预先确定的知识来源中检索、组织相关信息，更好地控制文本输出，用户也能深入了解 LLM 生成最终结果的过程。 RAG 类似于为模型提供教科书，适用于回答特定询问或解决特定信息检索任务，但不适合教模型理解广泛领域或学习新的语言、格式或样式。小模型：文中未提及小模型的相关具体内容。

把视频声音提取成文本

以下是关于视频声音相关处理的信息：视频配音效的 AI 工具：支持 50 多种语言的配音，音质自然流畅。提供实时配音功能，适用于直播和演讲。能将语音转录为文本，方便后期字幕制作和编辑。与多种生产力和学习工具整合。 Vidnoz AI 特点：支持 23 多种语言的配音，音质高保真。支持文本转语音和语音克隆功能。提供语音参数自定义和背景音乐添加工具。提供面向个人和企业的经济实惠的定价方案。把小说做成视频的流程： 1. 小说内容分析：使用 AI 工具（如 ChatGPT）分析小说内容，提取关键场景、角色和情节。 2. 生成角色与场景描述：根据小说内容，使用工具（如 Stable Diffusion 或 Midjourney）生成角色和场景的视觉描述。 3. 图像生成：使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作：将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作：利用 AI 配音工具（如 Adobe Firefly）将小说文本转换为语音，添加背景音乐和音效。 6. 视频编辑与合成：使用视频编辑软件（如 Clipfly 或 VEED.IO）将图像、音频和文字合成为视频。 7. 后期处理：对生成的视频进行剪辑、添加特效和转场，以提高视频质量。 8. 审阅与调整：观看生成的视频，根据需要进行调整，比如重新编辑某些场景或调整音频。 9. 输出与分享：完成所有编辑后，输出最终视频，并在所需平台上分享。 ChatTTS 增强版整合包：文本内容很多时，可勾选文本切割来处理，默认为五十字符切割，还能将音频片段合并为一整段音频，切割的音频片段也支持增强处理。保存后的音频文件结构清晰，concatenated Audio 是合成的一整段音频，Enhanced Audio 是增强处理后的整段音频，Audio clip 文件夹中是切分的音频片段，Enhanced 开头的是增强处理的音频片段，不带 Enhanced 是生成的普通音频片段。增加了批量处理功能，勾选后可上传一个 TXT 文本，TXT 文本需按每句换行的格式。可以点击随机按钮选择音色，找到满意的音色后，可将设置和音色种子保存到配置文件中方便下次使用。

把视频文字提取成文本

要将视频文字提取成文本，对于有字幕的 B 站视频，可以按照以下步骤操作： 1. 打开视频，如果在视频栏下面有字幕按钮，说明视频作者已上传字幕或后台适配了 AI 字幕。 2. 安装油猴脚本：。 3. 安装之后刷新浏览器，点击字幕，会看到多出一个“下载”按钮。 4. 点击下载按钮，弹出窗口，可以选择多种字幕格式，带时间的或者不带时间的。 5. 接下来，将字文字内容全选复制发送给 GPTs 即可。此外，还有一些相关的 AI 技术和项目： 1. VSPLLM 能够将视频中唇动转化为文本，实现视觉语音识别和翻译，基于 AVHuBERT 模型，利用先进技术识别语音信息，智能去除不必要重复信息，提高处理效率。相关链接：https://github.com/facebookresearch/av_hubert 、https://x.com/xiaohuggg/status/1762089975431237938?s=20 。 2. MIRAGE 是提升医学问答性能的检索增强生成框架，使用最新可信文档辅助 LLMs，减少错误信息，提升回答准确性。MIRAGE 应用 MedRAG，某些模型性能提升至 GPT4 水平。相关链接：https://teddyxionggz.github.io/benchmarkmedicalrag/ 、https://arxiv.org/abs/2402.13178 、https://x.com/xiaohuggg/status/1762082522417262764?s=20 。 3. Genie 支持合成图像、真实照片、手绘草图转化成可互动游戏场景，降低创造复杂虚拟环境门槛，加速内容创作和游戏开发。相关链接：https://x.com/xiaohuggg/status/1761981007929176541?s=20 。 4. Sora 能够生成、编辑、识别、处理、理解视频和图像内容，展现出与 Gemini 1.5 Pro 相似的视频理解能力，能分析长达 1 小时的视频。相关链接：https://x.com/xiaohuggg/status/1761938064421867782?s=20 。

大模型结构剖析

大模型的结构主要包括以下几个部分： 1. 基础层：为大模型提供硬件支撑和数据支持，例如 A100、数据服务器等。 2. 数据层：这里的数据层并非用于基层模型训练的数据基集，而是企业根据自身特性维护的垂域数据，分为静态的知识库和动态的三方数据集。 3. 模型层：包括 LLm（大语言模型）或多模态模型。LLm 一般使用 transformer 算法实现，如 GPT；多模态模型用于文生图、图生图等，训练数据为图文或声音等多模态数据集。 4. 平台层：是模型与应用间的平台部分，如大模型的评测体系或 langchain 平台等。 5. 表现层：也就是应用层，是用户实际看到的地方。在大模型的运作方面，对于核心的模型层，即 LLm 和多模态模型，其原理如下： Encoderonly 模型通常适用于自然语言理解任务，如分类和情感分析，代表模型是 BERT。 Encoderdecoder 模型同时结合了 Transformer 架构的 encoder 和 decoder 来理解和生成内容，用例包括翻译和摘要，代表是 google 的 T5。 Decoderonly 模型更擅长自然语言生成任务，如故事写作和博客生成，众多熟知的 AI 助手基本都采用这种结构。大模型的特点在于：预训练数据非常大，往往来自互联网，包括论文、代码、公开网页等，最先进的大模型一般用 TB 级别的数据进行预训练。参数非常多，如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。

以下是关于生成 prompt 的相关内容：在 Adobe Firefly 中生成带有文本提示和图像的视频： 1. 在上，选择“生成视频”。 2. 在 Generate video 页面上，在 Prompt 字段中输入文本提示，还可以使用 Upload 部分中的 Image 选项，将图像用于第一帧，并为视频剪辑提供方向参考。添加图像以提供清晰的视觉引导，使生成的视频更紧密地与您的愿景对齐。在 General settings 部分，您可以确定 Aspect ratio 和 Frames per second。编写 prompt 的建议： 1. 明确任务，清晰定义任务，如写故事时包含背景、角色和主要情节。 2. 提供上下文，若任务需特定背景知识，在 prompt 中提供足够信息。 3. 使用清晰语言，避免模糊或歧义词汇。 4. 给出具体要求，如文章格式或风格要求在 prompt 中明确指出。 5. 使用示例，若有特定期望结果，在 prompt 中提供。 6. 保持简洁，避免过多信息使 AI 模型困惑。 7. 使用关键词和标签，帮助 AI 模型理解任务主题和类型。 8. 测试和调整，生成文本后检查结果并根据需要调整 prompt。李继刚等的 prompt 最佳实践：生成器主要解决两个问题： 1. 重复写框架结构可自动生成。 2. 一些套话的重复强调生成后微调。但一般别直接用生成的 Prompt，在 Workflow 那块大改效果才会更好。新版使用案例：如给“Role:知识探索专家”打分，GPT 对该 prompt 的评分已达 10 分。还有如 Role:文字排版大师，有适合私域群运营发公告通知等的版本 1 和针对较长内容更适合的版本 2 等。希望以上内容对您有所帮助。内容由 AI 大模型生成，请仔细甄别。

推荐一个视频转换文字的软件

以下是为您推荐的视频转换文字的软件： 1. Reccloud：免费的在线 AI 字幕生成工具，可直接上传视频精准识别，能翻译字幕并自动生成双语字幕，处理过 1.2 亿+视频，识别准确率接近 100%。 2. 绘影字幕：一站式专业视频自动字幕编辑器，提供字幕制作和翻译服务，支持 95 种语言，准确率高达 98%，可自定义字幕样式。 3. Arctime：能对视频语音自动识别并转换为字幕，支持自动打轴，支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 4. 网易见外：国内知名语音平台，支持视频智能字幕功能，转换正确率较高，支持音频转写功能。此外，还有通义听悟等工具也可实现音视频转文字的功能。以上工具各有特点，您可以根据自身需求选择最适合的。

好用的ai视频工具

以下是一些好用的 AI 视频工具： Runway：https://runwayml.com/ ，在真实影像方面质感好，战争片全景镜头处理出色，控件体验感好，但爱变色，光影不稳定，控制能力强，可指定局部对象设置运动笔刷。有网页有 app 方便，工具教程： Pixverse：https://pixverse.ai/ ，高清化方面有优势，对偏风景和纪录、有特定物体移动的画面友好，能力全面，缺点是同时只能进行 4 个任务，工具教程： Haiper：https://haiper.ai/ ，默默无闻，只能生成 2s，但有不错的镜头，稳定性强，优点是没有并发任务限制。 Pika：https://pika.art/ ，对奇幻感画面把控好，有嘴型同步功能，对二次元友好，工具教程： SVD：https://www.stablevideo.com/ ，整体略拉垮，唯一能打的是在风景片，优点是不带水印，动作幅度大，但崩坏概率大，工具教程：此外还有以下 AI 视频工具：即梦：https://dreamina.jianying.com/ ，剪映旗下，生成 3 秒，动作幅度有很大升级，最新 S 模型，P 模型，工具教程： Kling：kling.kuaishou.com ，支持运动笔刷，1.5 模型可以直出 1080P30 帧视频，视频模型：智谱清影：https://chatglm.cn/video ，开源了，可以自己部署 cogvideo，工具教程： Morph Studio：https://app.morphstudio.com/ ，还在内测 Heygen：https://www.heygen.com/ ，数字人/对口型 Kaiber：https://kaiber.ai/ Moonvalley：https://moonvalley.ai/ Mootion：https://discord.gg/AapmuVJqxx ，3d 人物动作转视频美图旗下：https://www.miraclevision.com/ Neverends：https://neverends.life/create ，操作傻瓜 SD：Animatediff SVD deforum ，自己部署 Leiapix：https://www.leiapix.com/ ，可以把一张照片转动态 Krea：https://www.krea.ai/ Opusclip：https://www.opus.pro/ ，利用长视频剪成短视频 Raskai：https://zh.rask.ai/ ，短视频素材直接翻译至多语种 invideoAI：https://invideo.io/make/aivideogenerator/ ，输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频 descript：https://www.descript.com/?ref=feizhuke.com veed.io：https://www.veed.io/ ，自动翻译自动字幕 clipchamp：https://app.clipchamp.com/ typeframes：https://www.revid.ai/?ref=aibot.cn

Midjourney+sd可以生成服装模特视频么

Midjourney 和 SD 可以用于生成服装模特视频。以下是一些常见的方法： 1. 方法 1【MJ 出图 + AI 视频软件】：使用 Midjourney 垫图➕描述出图，再去视频工具中转成视频。下载项里的深度图，打开 Midjourney 官网（https://www.midjourney.com/）上传深度图。局部重绘有难度，最终方式可以是分开画，比如先画个被关着的红衣服女孩，再画个二战德国士兵的背影，再合成后交给 MJ。 2. 方法 3【SD 出图 + AI 视频软件】：在 SD 的 controlnet 中上传原图，选择深度，文生图生成图片，再把生成好的图放在 AI 视频工具中进行视频生成。同时，您还可以参考以下视频工具建议：。另外，使用 Dreamina 图片生成功能（https://dreamina.jianying.com/aitool/image/generate）上传深度图，选择适应画布比例并填写描述，也可以实现深度图出图和出视频。