直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
Batch调用是什么意思
在 LangChain 应用开发中,Batch 调用是一种处理多个主题的方式。例如,调用笑话对象时,传入一个主题字符串的列表,就可以得到一个笑话字符串的列表,如 joke.batch。它能够同时处理多个任务,提高处理效率。
2025-02-25
coze平台中的数据库应用,怎么判断数据是那个用户的,插入数据库节点时,需要明确用户uuid吗
在 Coze 平台中判断数据属于哪个用户,插入数据库节点时通常需要明确用户的唯一标识,如用户 UUID 或类似的唯一标识。 例如,在自动总结公众号内容并定时推送到微信的工作流中,考虑到可能有多个用户同时使用,使用了 server 酱的 sendkey 作为用户的唯一标识(重命名为 suid)。在数据库节点中查询是否已经推送过文章时,需要文章的 url 和用户的 suid 这两个值来判断。 在增加记账记录的工作流中,通过大语言模型将用户输入的非结构化数据转变为结构化数据存入数据库时,也需要明确相关的用户标识。 在 COZE 工作流中,数据库节点的设置包括输入参数的设置(如参数名、参数值、引用来源)以及在 SQL 输入中添加相应的代码。 总之,明确用户标识对于准确判断数据归属和进行数据库操作是很重要的。
2025-02-25
ai在商业中的应用
AI 在商业中的应用广泛,涵盖以下多个领域: 1. 医疗保健: 医学影像分析,辅助诊断疾病。 加速药物研发,识别潜在药物候选物和设计新治疗方法。 提供个性化医疗方案。 控制手术机器人,提高手术精度和安全性。 2. 金融服务: 风控和反欺诈,降低金融机构风险。 评估借款人信用风险,辅助贷款决策。 分析市场数据,助力投资决策。 提供 24/7 客户服务,回答常见问题。 3. 零售和电子商务: 分析客户数据进行产品推荐。 改善搜索结果,提供个性化购物体验。 实现动态定价。 提供聊天机器人服务。 4. 制造业: 预测机器故障,进行预测性维护。 检测产品缺陷,把控质量。 优化供应链管理。 控制工业机器人,提高生产效率。 5. 交通运输:(未提及具体应用,暂缺) 此外,在以下七大行业也有商业化应用: 1. 企业运营:包括日常办公文档材料撰写整理、营销对话机器人、市场分析、销售策略咨询、法律文书起草、案例分析、法律条文梳理、人力资源简历筛选、预招聘、员工培训。 2. 教育:协助评估学生学习情况、提供职业规划建议、定制化学习内容、论文初稿搭建及审核、帮助低收入国家/家庭获得平等教育资源。 3. 游戏/媒体:定制化游戏、动态生成 NPC 互动、自定义剧情、开放式结局、出海文案生成、语言翻译、辅助广告投放和运营、数字虚拟人直播、游戏平台代码重构、AI 自动生成副本。 4. 零售/电商:舆情、投诉、突发事件监测及分析、品牌营销内容撰写及投放、自动化库存管理、自动生成或完成 SKU 类别选择、数量和价格分配、客户购物趋势分析及洞察。 5. 金融/保险:个人金融理财顾问、贷款信息摘要及初始批复、识别并检测欺诈活动风险、客服中心分析及内容洞察、保险理赔处理及分析、投资者报告/研究报告总结。 6. 制造业/汽车:生产计划和供应链计划状态查询、产线预测性维保辅助、产品质量分析与溯源、自动驾驶全场景模拟训练及虚拟汽车助手、线上购车品牌和配置对比分析。 7. 生命科学:研发阶段靶点发现及产品成药性、医学文献内容检索和重点摘要提取、相关法规整理、医药代表培训及知识库建立、分诊导诊助理、诊疗助理、术后护理及复建辅助。 不仅如此,ChatGPT 大模型以及生成式 AI 技术还将在图片、视频、数字人等领域的各种复杂场景中落地,利用海量数据资源和算法实现商业化应用与迭代更新。
2025-02-25
声音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用方法: 特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且自然。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用: 开源数字人组合方案中,第一步先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits 克隆声音,做出文案的音频。第二步使用 wav2lip 整合包,导入视频和音频,对口型得到视频。 GPTSoVITS 实现声音克隆的具体步骤: 前置数据获取处理:选择音频,开启切割;有噪音时,进行降噪处理;降噪处理完成,开启离线 ASR。 GPTSowitsTTS:训练集格式化,开启一键三连并耐心等待;微调训练,开启 SoVITS 训练和 GPT 训练;推理,开始推理 刷新模型 选择微调后的模型 yoyo。成功后会出现新的 URL,说明自己的声音微调完毕。 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音,如 AIyoyo 普通话 满江红、AIyoyo 粤语版 满江红。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 产品:https://synclabs.so/
2025-02-25
通义千问plus的收费模式
通义千问 Plus 的收费模式如下: 调用费用为 0.008 元/1,000tokens。更多收费标准详见:https://t.aliyun.com/U/SGW1CC
2025-02-25
comfyui算力平台
以下是关于 ComfyUI 算力平台的相关信息: 揽睿: 属性:云平台 邀请链接:https://lanruiai.com/register?invitation_code=0659 备注:WaytoAGI 邀请码 0659 可以得到 10 小时的免费时长 厚德云: 属性:云平台 邀请链接:https://portal.houdeyun.cn/register?from=Waytoagi 备注:厚德云是专业的 AI 算力云平台,隶属于又拍云旗下,又拍云拥有 15 年云服务经验。注册后送 50 元代金券。ComfyUI 悟空换脸特效使用流程: 百度飞桨: 属性:云平台 邀请链接:https://aistudio.baidu.com/community/app/106043?source=appCenter 备注:新注册 2 个小时。,明天给大家发放 50 小时的算力 阿里云 PAI Artlab: 属性:云平台 邀请链接:直达地址:https://developer.aliyun.com/topic/paisports 备注:登录后领取免费试用,领取 500 元算力、OSS 20G 存储。AI 创作你的奥运专属海报,参与 PK 赢取台式升降桌、Lamy 钢笔套盒、双肩包等大奖!活动地址:https://mp.weixin.qq.com/s/y3Sk5PtVT5g8yFTMJASdFw onethingai: 属性:云平台 邀请链接:https://onethingai.com/invitation?code=dyAK4vY5 以云平台揽睿为例,搭建自己第一个 Comfyui 的方法如下: 1. 进入「应用启动器」页面,选择「comfyui 官方启动器」,点击「部署」按钮,点击「立即创建」,会进入「工作空间」页面。 2. 创建完成后稍等片刻,无需其他任何操作,等待「打开应用」按钮可点击后,点击该按钮就可以打开 comfyui 界面使用啦。 3. 启动/出图/训练进度可进入工作空间详情 日志查看。
2025-02-25
多模态搜索
以下是关于多模态搜索的相关信息: ThinkAny 搜索引擎: 产品特性: 支持多模态检索(MultiModeSearch),可检索链接、图片、视频等模态内容。 支持多维度输出(MultiFormOutput),能以对话、大纲、思维导图、时间线等形式输出搜索问答内容。 支持多信源检索(MultiRetrieveSource),可检索 Google、Wikipedia、Github 等信息源的内容。 开源了 API 项目 ragsearch,实现联网检索功能,并对检索结果进行重排和获取详情内容。 长期发展方向是走 AI Search+Anything 的平台化路线,允许用户挂载自定义信息源、创建自定义智能体、实现自定义的流程编排。 其他推荐的 AI 搜索引擎: 秘塔 AI 搜索:提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能。 Perplexity:聊天机器人式搜索引擎,用自然语言提问,从各种来源收集信息并给出答案。 360AI 搜索:通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 天工 AI 搜索:采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持图像、语音等多模态搜索。 Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 Devv:面向程序员的 AI 搜索引擎,提供编程、软件开发和人工智能等领域的专业建议和指导。 Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 提升 AI 搜索准确度: 在提示词的设计和调试方面需要下功夫,很多环节都需用到提示词,如请求大模型判断是否需要联网、改写问题、提取关键词、回答问题、标注引用来源、以思维导图形式输出答案、做 Function Calling 判断使用的 Agents 等。 多模态检索是提升信息密度的重要措施,随着 5G 发展,互联网信息多元化,图片、视频、音频比重增大,多模态检索为获取不同形式信息再聚合起来作为引用参考。但多模态检索实现困难,现阶段可在谷歌搜索基础上,先使用其图片/视频检索 API 拿到匹配内容,再通过 OCR 图片识别、音视频转录等方法拿到多模态信息的文本内容。
2025-02-25
ai智能体学习
以下是关于 AI 智能体学习的相关内容: DeepMind 开发出可以向人类学习的人工智能,其在 3D 模拟环境中使用神经网络和强化学习,展示了 AI 智能体在没有直接从人类获取数据的情况下,通过观察来学习和模仿人类行为,被视为向人工通用智能迈进的一大步。其研究背景在于智力包括有效的知识获取,通常依赖于文化传播,人类智力很大程度上依赖此过程来吸收文化知识。 结合“一人公司”的愿景,未来的 AI 数字员工会以大语言模型为大脑,串联所有工具,创造者的学习方向是用大模型和 Agent 模式把工具串起来,着重关注创造能落地 AI 的 agent 应用。Agent 工程如同传统软件工程学,有迭代范式,包括梳理流程、任务工具化、建立规划和迭代优化。 现在接触到的智能体大多建立在大模型之上,从基于符号推理的专家系统逐步演进而来,具有强大学习能力、灵活性和泛化能力。智能体的核心在于有效控制和利用大型模型以达到设定目标,这通常涉及精确的提示词设计,其设计直接影响智能体的表现和输出结果。
2025-02-25
语音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用步骤: 特点: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且更自然。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 提供预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用步骤: 1. 前置数据获取处理: 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 2. GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 3. 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 注册 colab 并启动准备:点击进入按照步骤注册即可 https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 ,新建笔记本,运行脚本启动 GPTSo VITS,整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段运行; https://colab.research.google.com/drive/1Z4p4NTR7GYlQTn_MdMen9XgulV0CHza?usp=sharing 。 实践的样本: AIyoyo 普通话 满江红 AIyoyo 粤语版 满江红
2025-02-25
配音工具
以下是一些给视频配音效的 AI 工具: Vidnoz AI:支持 23 多种语言的配音,音质高保真,支持文本转语音和语音克隆功能,提供语音参数自定义和背景音乐添加工具,提供面向个人和企业的经济实惠的定价方案。 Wavel Studio:支持 30 多种语言的配音,音质自然流畅,自动去除背景噪音和杂音,提供添加字幕和文本叠加层的工具,界面友好,提供多种自定义选项。 Elai.io:支持 65 多种语言的配音,音色和语调真实,自动将唇形与语音同步,生成字幕,提高视频的可访问性,支持多位配音者,适合复杂对话场景。 Rask AI:支持 130 多种语言的配音,包括稀有和濒危语言,采用先进语音合成技术,音质高保真,提供语音参数自定义和音效添加工具,与多种视频编辑平台和工作流程整合。 Notta:提供快速实惠的多语言配音解决方案,保留原声说话风格和细微差别,提供调整语音速度和音调的工具,支持批量处理,高效完成多视频配音。 Dubverse:支持 60 多种语言的配音,音质接近真人,提供文本转语音和语音克隆功能,提供语音参数自定义和情感添加工具,与多种视频平台和社交媒体渠道整合。 在剪映中,也有相关的配音功能,如克隆音色和文本朗读。选择合适的音色点击开始朗读即可生成。需要注意的是,生成配音后应删除输入的文本,若想添加字幕可使用剪映的字幕识别功能。另外,还有 DubbingX 也是一款不错的配音工具。在选择视频配音工具时,请考虑支持的语言数量、语音质量、自定义选项和价格等因素。
2025-02-25