Navigate to WaytoAGI Wiki →
Home/All Questions
ocr
关于 OCR 的相关信息如下: GPT 的 OCR 识别问题及解决方案: 问题:开启代码执行功能时,GPT 会尝试用代码完成 OCR,导致无法正确识别图片文字。 解决方案: 如果是自定义 GPT,关闭 Code Interpreter。 无法关闭时,提问时明确说明“不要执行代码,请用自身多模态能力识别文字”。 直接使用 ChatGPT,而非 GPT。参考链接: 开源的 Zerox OCR 工具: 支持将 PDF、DOCX 转换为 Markdown。 可并发处理,能选择特定页面及模型选项。详细介绍参考:
2025-01-17
AI 做产品渲染图的工具和企业内落地使用的流程和方案是什么
以下是关于 AI 做产品渲染图的工具和企业内落地使用的流程和方案的相关内容: 工具: 等工具可帮助品牌创建引人注目的产品照片。 可制作用于电子邮件或社交媒体的营销材料。 可以编写经过 SEO 优化的产品描述。 企业内落地使用流程和方案: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,处理大量数据,快速识别关键信息,如受欢迎的产品、价格区间、销量等。 2. 关键词优化:借助 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:使用 AI 设计工具,根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:运用 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:通过 AI 图像识别技术选择或生成高质量的产品图片,更好地展示产品特点。 6. 价格策略:利用 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:借助 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:依靠 AI 根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 9. 聊天机器人:采用 AI 驱动的聊天机器人提供 24/7 的客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:使用 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:依靠 AI 帮助预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:利用 AI 分析不同的支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:借助 AI 在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:运用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。
2025-01-17
如何部署自己的知识库
以下是部署自己知识库的详细步骤: 一、了解 RAG 技术 因为利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用。在进行本地知识库的搭建实操之前,需要先对 RAG 有大概的了解。 RAG 是指检索增强生成(Retrieval Augmented Generation)。当需要依靠不包含在大模型训练集中的数据时,通过检索外部数据,然后在生成步骤中将这些数据传递给 LLM。一个 RAG 的应用可抽象为 5 个过程: 1. 文档加载(Document Loading):从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化的数据、SQL 在内的结构化的数据,以及 Python、Java 之类的代码等。 2. 文本分割(Splitting):文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及两个环节,分别是将切分好的文档块进行嵌入(Embedding)转换成向量的形式,以及将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. Output(输出):把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 二、通过 Open WebUI 使用大模型 1. 首先访问相关网址。打开页面时,使用任意邮箱注册账号。 2. 登陆成功后,Open WebUI 一般有两种使用方式,第一种是聊天对话,第二种是 RAG 能力,可让模型根据文档内容来回答问题,这种能力是构建知识库的基础之一。 三、本地知识库进阶 如果想要对知识库进行更加灵活的掌控,需要一个额外的软件:AnythingLLM。这个软件包含了所有 Open WebUI 的能力,并且额外支持了以下能力:选择文本嵌入模型、选择向量数据库。 安装地址:https://useanything.com/download 。安装完成后,会进入到其配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 构建本地知识库: 1. 在 AnythingLLM 中有一个 Workspace 的概念,可以创建自己独有的 Workspace 跟其他的项目数据进行隔离。 2. 首先创建一个工作空间。 3. 上传文档并且在工作空间中进行文本嵌入。 4. 选择对话模式。AnythingLLM 提供了两种对话模式:Chat 模式,大模型会根据自己的训练数据和上传的文档数据综合给出答案;Query 模式,大模型仅仅会依靠文档中的数据给出答案。 5. 测试对话。当上述配置完成之后,就可以跟大模型进行对话了。 四、写在最后 “看十遍不如实操一遍,实操十遍不如分享一遍”。如果对 AI Agent 技术感兴趣,可以联系作者或者加其免费知识星球(备注 AGI 知识库)。
2025-01-17
国内有什么有前景的AI公司
以下是一些国内有前景的 AI 公司: DeepSeek:在编码任务中表现出色,其 deepseekcoderv2 结合了速度、轻便性和准确性,深受社区喜爱。 阿里巴巴:最近发布的 Qwen2 系列在视觉能力方面给社区留下了深刻印象,能出色完成从具有挑战性的 OCR 任务到分析复杂艺术作品等工作。 清华大学自然语言处理实验室资助的 OpenBMB 项目,催生了 MiniCPM 项目,是可以在设备上运行的小型<2.5B 参数模型。
2025-01-17
我想训练一个专属Agent该怎么做?
要训练一个专属 Agent,以下是一些关键步骤和要点: 1. 明确目标:确定您希望 Agent 实现的特定目标,这将为训练提供方向。 2. 理解智能体的定义:智能体是能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 3. 规划:将大型任务分解为更小、可管理的子目标,以有效处理复杂任务。 4. 反思和完善:让 Agent 能够对过去的行为进行自我批评和反思,从错误中吸取教训,并针对未来步骤进行完善,提高最终结果质量。 5. 记忆管理:包括短期记忆,利用模型的短期记忆进行学习;长期记忆,通过外部向量存储和快速检索实现长时间信息保留和回忆。 6. 工具使用:训练 Agent 学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 7. 评估工具使用能力:从调用 API 的能力、检索 API 的能力以及计划 API 超越检索和调用的能力这三个层面进行评估。 在训练过程中,还需要注意模型的上下文窗口长度有限,输入的剧集应足够短以构建多剧集历史,2 4 个剧集的多剧集上下文对于学习近乎最优的上下文强化学习算法是必要的,且上下文强化学习的涌现需要足够长的上下文。
2025-01-17
控制模特的姿势
以下是关于控制模特姿势的方法: 在使用相关 AI 工具时,如 Stable Diffusion 等,有以下几种控制模特姿势的方式: 1. 使用蒙版和提示词:输入相关提示词,如“蓝色毛衣”,处理蒙版区域内容为“填充”,调整尺寸与图像一致,重绘幅度为 1。但可能会出现衔接问题,此时可降低重绘幅度或添加 openpose 来控制人物身体,获得正确姿势。 2. 利用 ControlNet 功能: 正常填写大模型和关键词生成照片。 鼠标滑到最下面,点击“ControlNet”。 点击空白处上传指定姿势的照片,并点击“启用”。 在“预处理器”和“模型”里选择“openpose”,用于让计算机识别人物姿势。 点击“预览预处理结果”,最后点击生成照片,即可得到指定姿势的照片。 在 ControlNet 参数配置方面: tile 用于对整体画面的控制,可选择分块+固定颜色+锐化,以保证颜色统一降低后续闪烁,不需要全过程引导,仅在开始时固定画面。 lineart 用于提取人物线条,保证人物整体不跑偏,权重给到 0.6 以控制整体画面输出稳定。 openpose 用于控制人物的姿态、表情和动作,推荐使用 DWpose 处理器,其对面部和手部的识别效果较好。
2025-01-17
MJ中如何精准控制颜色
以下是关于在 Midjourney 中精准控制颜色的一些方法和相关信息: 1. 在使用 MJ 生成兔子贴纸的过程中,关键词中限制了颜色,生成的图片会一种情绪对应一种颜色。若不想让模型把情绪和颜色做挂钩,同一种情绪可多生成几张不同色系的;若需要挂钩,也可反其道而行之。 2. 进行 SD 上色时,正关键词主要前面添加了增加照片质感常用的+mj 生成线稿的关键词调整(去掉 mj 里线稿的关键词,一开始嘴巴效果不好,添加了张开嘴巴等关键词,颜色都是可以单独调整控制)+风格参数。负关键词看自己的效果添加,添加一切不想要的东西。 3. 在 MJ 的公式方面: 角色人物公式:人物姓名(命名)+描述词(重要描述词和人物特征描述词)+风格+官方命令词。 3D 公式:主体+描述词(重要描述词和物体特征描述词)+风格+灯光+官方命令词。 插画公式:主题描述词语+风格(风格名称或画家)+描述+颜色灯光+官方命令。 特定公式: 连续场景变化公式: 角色/场景公式:上传图片(喂图)+人物描写(融入其他场景需要关键词 white background,结合场景后换成 walking in a futuristic cyberpunk city)+场景风格描写+官方命令。 木偶公式:人物图片+场景+人物+动作+风格+官方命令。 等距粘土公式: 等距+物体+max emoji(表情符号),soft(柔和)lighting soft(柔和光线)pastel colors/pastel background(背景)+3Dicon+clay(粘土)+blender 3d+背景颜色=等距粘土物体。 安子布莱斯娃娃/也可以换成其他知道的娃娃名称+灯光/颜色/背景/材质+clay(粘土)+良奈吉友画风/或者其他名人风格=人。 3D 图标公式(未测试,可用):喂图(1~3 张相似的风格)+描述的 icon(和喂图一致的关键词)+颜色(和喂图颜色一致的)+渲染词+官方命令。 通用公式:角色/物体描述+背景描述+灯光风格+官方命令。
2025-01-17
如何让AI生成我想要的颜色
要让 AI 生成您想要的颜色,可以参考以下几种方法: 1. 在“Mood to color”任务中,您向 AI 提供心情的描述,让其生成对应的 CSS 代码颜色。输出为 json 格式,键为“css_code”。若描述不清晰或信息不足,可能无法确定颜色代码。 2. 使用 Khroma 网站,通过选择一组颜色来训练神经网络驱动的算法,在浏览器中生成您喜欢的颜色并屏蔽不喜欢的颜色。它能从互联网上热门的调色板中学习,生成出色的组合,您可以以字体、渐变、调色板或自定义图像的形式查看。 3. 在 Stable Diffusion 中,为线稿上色的步骤如下: 点开“ControlNet”的状态栏。 在空白处上传线稿图,并点击“启用”和“反转输出颜色”。 在模型里选择“canny”的模型。 设置前面的内容,如选择合适的大模型(若想生成二次元图,选择相应模型),输入关键词(先写照片质量关键词,再指定颜色,还可通过输入更多关键词控制照片细节,负面关键词可复制前面的)。 希望这些信息对您有所帮助。
2025-01-17
有两张图,一张是手,一张是戒指,如何将戒指套入手上合成一张图
目前没有相关的知识库内容为您提供将手和戒指合成一张图的具体方法。但一般来说,您可以使用专业的图像编辑软件,如 Adobe Photoshop 等。以下是大致的步骤: 1. 打开软件并导入手和戒指的图片。 2. 选择戒指图片,使用抠图工具将戒指抠出。 3. 将抠出的戒指移动到手的图片上,并调整大小、位置和角度,使其看起来像是套在手上。 4. 对合成后的图片进行细节调整,如颜色、光影等,以使合成效果更加自然。 希望这些信息对您有所帮助。
2025-01-17
章鱼AI客服怎么样
很抱歉,上述提供的内容中没有直接关于章鱼 AI 客服的相关信息。但可以为您介绍一些关于 AI 客服的一般性知识。 AI 客服通常是基于大型语言模型和其他技术实现的智能实体,其核心功能在于自主理解用户的问题、进行规划决策并执行回复任务。 AI 客服可能包含以下几个概念: 1. Chain:通常由多个步骤组成,每个步骤可以接受输入变量并产生输出变量,大部分由大语言模型完成。 2. Router:通过一些判定(甚至可以用语言模型判定),让客服走向不同的处理流程。 3. Tool:可以进行的一次工具调用,如互联网搜索、数据库检索等。 一般的 AI 客服系统可能需要多个 Agent 协同工作,例如: 1. Responser Agent:主客服,用于回复用户。 2. Background Agent:背景客服,用于推进角色当前状态,如进入下一个剧本,抽检生成增长的记忆体等。 3. Daily Agent:每日客服,用于生成剧本、配套图片以及每日朋友圈等。 这些 Agent 可能会每隔一段时间运行一次,分析历史对话,变更人物关系、反感度等,并按照时间推进人物剧本,还有概率主动聊天。 由于没有章鱼 AI 客服的具体内容,以上是关于 AI 客服的一些常见情况,希望对您有所帮助。
2025-01-17