「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
RAG技术基本了解
RAG(Retrieval Augmented Generation,检索增强生成)是一种结合信息检索和文本生成能力的技术,主要用于处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。 其基本流程包括以下几个步骤: 1. 文档加载:从多种不同来源加载文档,如PDF 在内的非结构化数据、SQL 在内的结构化数据以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把文档切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法从向量数据库中找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM(大语言模型),LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 RAG 由两部分组成:一个“检索器”和一个“生成器”。检索器从外部知识中快速找到与问题相关的信息,生成器则利用这些信息来制作精确和连贯的答案。在给定一个用户的输入(如问题或话题)时,RAG 会从数据源中检索出相关的文本片段作为上下文,然后将用户输入和检索到的上下文拼接成完整输入传递给大模型,并从大模型的输出中提取或格式化所需信息返回给用户。
2025-01-06
最新AI赚钱
以下是关于最新 AI 赚钱的一些信息: 从 GPTs/GLMs 如何赚钱谈起:AI 应用的曙光在哪?大多数人通过 GPTs/GLMs 赚钱较难,文章将从一个 AI 产品经理的角色复盘 2023 年的所见所闻所感来聊聊 AI 赚钱(应用落地)这件事情。 2023 年,让您月赚 5w 的 48 个 AI 工具:包括 AI 研究工具(如 Claude、ChatGPT 等)、图片处理(如 DallE 等)、版权写作(如 Rytr 等)、设计(如 Canva 等)、网站搭建(如 10Web 等)、视频处理(如 Klap 等)、音频处理(如 Murf 等)、SEO 优化(如 Alli AI 等)、Logo 设计(如 Looka 等)、聊天机器人(如 Droxy 等)、自动化工具(如 Make 等)、市场营销等方面的工具。 3 月动态|23 个 AI 新产品: Fixie.ai 是获得 1700 万美元种子轮融资的,由 LLM 驱动的,与外部系统进行交互的代理,旨在将 LLM 与企业数据、系统与工作流相链接。 Regex.ai 是一款基于 AI 的正则表达式自动生成工具,开箱即用,所见即所得,选择数据即可生成正则表达式,提供多种数据提取方式。 Enhance AI 是一分钟内在产品内集成最先进的 LLM(目前是 OpenAI GPT 模型)的低/无代码工具。
2025-01-06
RAG,Agent 与小模型
以下是关于 RAG、Agent 与小模型的相关知识: Agent: Agent 是大模型的一个热门发展方向。 中间的“智能体”通常是 LLM 或大模型,通过为其增加工具、记忆、行动、规划这四个能力来实现。 目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 比如长期记忆,就是给大模型一个数据库工具让其往里记录重要信息;规划和行动则是在大模型的 prompt 层做逻辑设计,如将目标进行拆解并输出不同的固定格式 action 指令给工具。 RAG: 向量相似性检索,可放在 system prompt 里或通过 tools 触发检索。 当有 Action 时,触发 tool_calls 标记,进入请求循环,拿模型生成的请求参数进行 API request,再把结果返回给大模型进行交互;没有 tool_calls 标记时,循环结束。 大语言模型存在输出结果不可预测、知识局限性、幻觉问题和数据安全性等问题,RAG 是解决这些问题的有效方案。 它能让大模型从权威的、预先确定的知识来源中检索、组织相关信息,更好地控制文本输出,用户也能深入了解 LLM 生成最终结果的过程。 RAG 类似于为模型提供教科书,适用于回答特定询问或解决特定信息检索任务,但不适合教模型理解广泛领域或学习新的语言、格式或样式。 小模型:文中未提及小模型的相关具体内容。
2025-01-06
把视频声音提取成文本
以下是关于视频声音相关处理的信息: 视频配音效的 AI 工具: 支持 50 多种语言的配音,音质自然流畅。 提供实时配音功能,适用于直播和演讲。 能将语音转录为文本,方便后期字幕制作和编辑。 与多种生产力和学习工具整合。 Vidnoz AI 特点: 支持 23 多种语言的配音,音质高保真。 支持文本转语音和语音克隆功能。 提供语音参数自定义和背景音乐添加工具。 提供面向个人和企业的经济实惠的定价方案。 把小说做成视频的流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 ChatTTS 增强版整合包: 文本内容很多时,可勾选文本切割来处理,默认为五十字符切割,还能将音频片段合并为一整段音频,切割的音频片段也支持增强处理。 保存后的音频文件结构清晰,concatenated Audio 是合成的一整段音频,Enhanced Audio 是增强处理后的整段音频,Audio clip 文件夹中是切分的音频片段,Enhanced 开头的是增强处理的音频片段,不带 Enhanced 是生成的普通音频片段。 增加了批量处理功能,勾选后可上传一个 TXT 文本,TXT 文本需按每句换行的格式。 可以点击随机按钮选择音色,找到满意的音色后,可将设置和音色种子保存到配置文件中方便下次使用。
2025-01-06
把视频文字提取成文本
要将视频文字提取成文本,对于有字幕的 B 站视频,可以按照以下步骤操作: 1. 打开视频,如果在视频栏下面有字幕按钮,说明视频作者已上传字幕或后台适配了 AI 字幕。 2. 安装油猴脚本: 。 3. 安装之后刷新浏览器,点击字幕,会看到多出一个“下载”按钮。 4. 点击下载按钮,弹出窗口,可以选择多种字幕格式,带时间的或者不带时间的。 5. 接下来,将字文字内容全选复制发送给 GPTs 即可。 此外,还有一些相关的 AI 技术和项目: 1. VSPLLM 能够将视频中唇动转化为文本,实现视觉语音识别和翻译,基于 AVHuBERT 模型,利用先进技术识别语音信息,智能去除不必要重复信息,提高处理效率。相关链接:https://github.com/facebookresearch/av_hubert 、https://x.com/xiaohuggg/status/1762089975431237938?s=20 。 2. MIRAGE 是提升医学问答性能的检索增强生成框架,使用最新可信文档辅助 LLMs,减少错误信息,提升回答准确性。MIRAGE 应用 MedRAG,某些模型性能提升至 GPT4 水平。相关链接:https://teddyxionggz.github.io/benchmarkmedicalrag/ 、https://arxiv.org/abs/2402.13178 、https://x.com/xiaohuggg/status/1762082522417262764?s=20 。 3. Genie 支持合成图像、真实照片、手绘草图转化成可互动游戏场景,降低创造复杂虚拟环境门槛,加速内容创作和游戏开发。相关链接:https://x.com/xiaohuggg/status/1761981007929176541?s=20 。 4. Sora 能够生成、编辑、识别、处理、理解视频和图像内容,展现出与 Gemini 1.5 Pro 相似的视频理解能力,能分析长达 1 小时的视频。相关链接:https://x.com/xiaohuggg/status/1761938064421867782?s=20 。
2025-01-06
大模型结构剖析
大模型的结构主要包括以下几个部分: 1. 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 2. 数据层:这里的数据层并非用于基层模型训练的数据基集,而是企业根据自身特性维护的垂域数据,分为静态的知识库和动态的三方数据集。 3. 模型层:包括 LLm(大语言模型)或多模态模型。LLm 一般使用 transformer 算法实现,如 GPT;多模态模型用于文生图、图生图等,训练数据为图文或声音等多模态数据集。 4. 平台层:是模型与应用间的平台部分,如大模型的评测体系或 langchain 平台等。 5. 表现层:也就是应用层,是用户实际看到的地方。 在大模型的运作方面,对于核心的模型层,即 LLm 和多模态模型,其原理如下: Encoderonly 模型通常适用于自然语言理解任务,如分类和情感分析,代表模型是 BERT。 Encoderdecoder 模型同时结合了 Transformer 架构的 encoder 和 decoder 来理解和生成内容,用例包括翻译和摘要,代表是 google 的 T5。 Decoderonly 模型更擅长自然语言生成任务,如故事写作和博客生成,众多熟知的 AI 助手基本都采用这种结构。 大模型的特点在于: 预训练数据非常大,往往来自互联网,包括论文、代码、公开网页等,最先进的大模型一般用 TB 级别的数据进行预训练。 参数非常多,如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数。
2025-01-06
生成prompt
以下是关于生成 prompt 的相关内容: 在 Adobe Firefly 中生成带有文本提示和图像的视频: 1. 在上,选择“生成视频”。 2. 在 Generate video 页面上,在 Prompt 字段中输入文本提示,还可以使用 Upload 部分中的 Image 选项,将图像用于第一帧,并为视频剪辑提供方向参考。添加图像以提供清晰的视觉引导,使生成的视频更紧密地与您的愿景对齐。在 General settings 部分,您可以确定 Aspect ratio 和 Frames per second。 编写 prompt 的建议: 1. 明确任务,清晰定义任务,如写故事时包含背景、角色和主要情节。 2. 提供上下文,若任务需特定背景知识,在 prompt 中提供足够信息。 3. 使用清晰语言,避免模糊或歧义词汇。 4. 给出具体要求,如文章格式或风格要求在 prompt 中明确指出。 5. 使用示例,若有特定期望结果,在 prompt 中提供。 6. 保持简洁,避免过多信息使 AI 模型困惑。 7. 使用关键词和标签,帮助 AI 模型理解任务主题和类型。 8. 测试和调整,生成文本后检查结果并根据需要调整 prompt。 李继刚等的 prompt 最佳实践: 生成器主要解决两个问题: 1. 重复写框架结构可自动生成。 2. 一些套话的重复强调生成后微调。但一般别直接用生成的 Prompt,在 Workflow 那块大改效果才会更好。 新版使用案例:如给“Role:知识探索专家”打分,GPT 对该 prompt 的评分已达 10 分。还有如 Role:文字排版大师,有适合私域群运营发公告通知等的版本 1 和针对较长内容更适合的版本 2 等。 希望以上内容对您有所帮助。内容由 AI 大模型生成,请仔细甄别。
2025-01-06
推荐一个视频转换文字的软件
以下是为您推荐的视频转换文字的软件: 1. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频精准识别,能翻译字幕并自动生成双语字幕,处理过 1.2 亿+视频,识别准确率接近 100%。 2. 绘影字幕:一站式专业视频自动字幕编辑器,提供字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,可自定义字幕样式。 3. Arctime:能对视频语音自动识别并转换为字幕,支持自动打轴,支持 Windows 和 Linux 等主流平台及 SRT 和 ASS 等字幕功能。 4. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 此外,还有通义听悟等工具也可实现音视频转文字的功能。 以上工具各有特点,您可以根据自身需求选择最适合的。
2025-01-06
好用的ai视频工具
以下是一些好用的 AI 视频工具: Runway:https://runwayml.com/ ,在真实影像方面质感好,战争片全景镜头处理出色,控件体验感好,但爱变色,光影不稳定,控制能力强,可指定局部对象设置运动笔刷。有网页有 app 方便,工具教程: Pixverse:https://pixverse.ai/ ,高清化方面有优势,对偏风景和纪录、有特定物体移动的画面友好,能力全面,缺点是同时只能进行 4 个任务,工具教程: Haiper:https://haiper.ai/ ,默默无闻,只能生成 2s,但有不错的镜头,稳定性强,优点是没有并发任务限制。 Pika:https://pika.art/ ,对奇幻感画面把控好,有嘴型同步功能,对二次元友好,工具教程: SVD:https://www.stablevideo.com/ ,整体略拉垮,唯一能打的是在风景片,优点是不带水印,动作幅度大,但崩坏概率大,工具教程: 此外还有以下 AI 视频工具: 即梦:https://dreamina.jianying.com/ ,剪映旗下,生成 3 秒,动作幅度有很大升级,最新 S 模型,P 模型,工具教程: Kling:kling.kuaishou.com ,支持运动笔刷,1.5 模型可以直出 1080P30 帧视频,视频模型: 智谱清影:https://chatglm.cn/video ,开源了,可以自己部署 cogvideo,工具教程: Morph Studio:https://app.morphstudio.com/ ,还在内测 Heygen:https://www.heygen.com/ ,数字人/对口型 Kaiber:https://kaiber.ai/ Moonvalley:https://moonvalley.ai/ Mootion:https://discord.gg/AapmuVJqxx ,3d 人物动作转视频 美图旗下:https://www.miraclevision.com/ Neverends:https://neverends.life/create ,操作傻瓜 SD:Animatediff SVD deforum ,自己部署 Leiapix:https://www.leiapix.com/ ,可以把一张照片转动态 Krea:https://www.krea.ai/ Opusclip:https://www.opus.pro/ ,利用长视频剪成短视频 Raskai:https://zh.rask.ai/ ,短视频素材直接翻译至多语种 invideoAI:https://invideo.io/make/aivideogenerator/ ,输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频 descript:https://www.descript.com/?ref=feizhuke.com veed.io:https://www.veed.io/ ,自动翻译自动字幕 clipchamp:https://app.clipchamp.com/ typeframes:https://www.revid.ai/?ref=aibot.cn
2025-01-06
Midjourney+sd可以生成服装模特视频么
Midjourney 和 SD 可以用于生成服装模特视频。以下是一些常见的方法: 1. 方法 1【MJ 出图 + AI 视频软件】:使用 Midjourney 垫图➕描述出图,再去视频工具中转成视频。下载项里的深度图,打开 Midjourney 官网(https://www.midjourney.com/)上传深度图。局部重绘有难度,最终方式可以是分开画,比如先画个被关着的红衣服女孩,再画个二战德国士兵的背影,再合成后交给 MJ。 2. 方法 3【SD 出图 + AI 视频软件】:在 SD 的 controlnet 中上传原图,选择深度,文生图生成图片,再把生成好的图放在 AI 视频工具中进行视频生成。 同时,您还可以参考以下视频工具建议: 。另外,使用 Dreamina 图片生成功能(https://dreamina.jianying.com/aitool/image/generate)上传深度图,选择适应画布比例并填写描述,也可以实现深度图出图和出视频。
2025-01-06