Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

请问一下，群里AI记账，可以识别文字、语音、图片的那种是怎么做出来的呀

Answer

目前关于群里能识别文字、语音、图片进行 AI 记账的实现，需要综合运用多种技术和方法。首先，对于文字识别，通常会运用自然语言处理技术，对输入的文字进行解析和理解，提取关键的财务信息。语音识别则依赖语音识别技术，将语音转换为文字后再进行后续处理。图片识别方面，会利用计算机视觉技术，对图片中的财务相关内容进行识别和提取。

在具体实现过程中，需要建立大规模的数据集进行模型训练，以提高识别的准确性和效率。同时，还需要设计合理的算法和模型架构，来处理不同类型的数据，并将其转化为有用的财务记录。此外，为了保证系统的稳定性和可靠性，还需要进行充分的测试和优化。

但由于缺乏具体的案例和详细信息，以上只是一个大致的介绍，实际的实现会因具体需求和技术选型而有所不同。

Content generated by AI large model, please carefully verify (powered by aily)

Others are asking

如何借鉴“决战拜年之巅”：这是一款基于 GLM 大模型开发的微信小程序游戏，玩家在 10 个 AI 角色组成的家人群里，面对“七大姑八大姨”的连环拷问，自由对话打出属于自己的结局。实现一个工作场合的游戏

以下是借鉴“决战拜年之巅”实现一个工作场合游戏的相关要点： 1. 开发背景：“决战拜年之巅”是参加 Globalgamejam 游戏比赛时，在 48 小时内开发的，主题源于“make me laugh”，产品负责人谐音想到江浙沪孝子排行榜的“孝”，结合春节想到做类似拜年的东西。 2. 火爆情况：在参赛群发布半成品后，在 QQ、微信迅速火爆，两天内有 200 万用户，最高峰同时在线 6 万人，服务器一度支持不了，凌晨才做好调整，后续有厂商赞助服务器，上线约一周。 3. 游戏特点：基于 GLM 大模型开发，又称过年模拟器，玩家在 10 个 AI 角色组成的家人群里，面对“七大姑八大姨”的连环拷问自由对话打出结局。 4. 借鉴要点：明确创新主题和玩法，结合特定场景和需求。注重用户体验，及时应对服务器等技术支持问题。利用 AI 技术实现角色互动和自由对话。需要注意的是，“决战拜年之巅”被认为可能是一个 chatbot 而非严格意义上的游戏。在设计工作场合的游戏时，要明确以下三个点：（具体要点未在提供的内容中明确）

不，我不是要搭建微信企业客服，我是想在群里设置群AI管理员，搭建ai群管理

以下是搭建微信群 AI 管理员的详细步骤： 1. 如果暂时没有 FastGPT 或者 OpenAI 的 key，可以先不修改，保持 Ai_Lock 是 0。 2. 修改后，点击保存。 3. 返回 NGCbot 文件夹下，找到 main.py 文件，双击开始运行。 4. 双击后，会看到页面，然后会弹出微信登录框。正常登录微信即可（如果显示版本过低，登录失败，跳转到最下边看解决方法）。 5. 进入微信之后，系统会自动初始化必备文件，等待初始化完成。 6. 在运行成功后，需要用“大号”给机器人发一条消息。红框处是您的 wxid。拿到您的 wxid 返回到第 13.1 步，config 让您替换的地方，替换掉。（因为您刚才填的是我的 wxid / 狗头 7. 添加完之后，建议使用小号进行登录，然后您就可以使用大号作为管理员，对小号发号施令了！ 8. 试着使用小号登录后，用大号对小号说：美女图片、美女视频、备案查询、归属查询、whois 查询、摸鱼日历、KFC 文案、周公解梦、天气查询、舔狗日记、星座查询、早安寄语、早报、晚报、Help

如何让企业微信可以接上 AI？让我的企业微信号变成一个 AI 客服

要让企业微信接上 AI 并变成一个 AI 客服，可以参考以下内容： 1. 基于 COW 框架的 ChatBot 实现方案：这是一个基于大模型搭建的 Chat 机器人框架，可以将多模型塞进微信（包括企业微信）里。张梦飞同学写了更适合小白的使用教程，链接为：。可以实现打造属于自己的 ChatBot，包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能，以及常用开源插件的安装应用。正式开始前需要知道：本实现思路需要接入大模型 API 的方式实现（API 单独付费）。风险与注意事项：微信端因为是非常规使用，会有封号危险，不建议主力微信号接入；只探讨操作步骤，请依法合规使用，大模型生成的内容注意甄别，确保所有操作均符合相关法律法规的要求，禁止将此操作用于任何非法目的，处理敏感或个人隐私数据时注意脱敏，以防任何可能的滥用或泄露。支持多平台接入，如微信、企业微信、公众号、飞书、钉钉等；多模型选择，如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等；多消息类型支持，能处理文本、语音和图片，以及基于自有知识库进行定制的企业智能客服功能；多部署方法，如本地运行、服务器运行、Docker 的方式。 2. DIN 配置：先配置 FastGpt、OneAPI，装上 AI 的大脑后，可体验知识库功能并与 AI 对话。新建应用，在知识库菜单新建知识库，上传文件或写入信息，最后将拥有知识库能力的 AI 助手接入微信。

围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中，AI 面临着巨大挑战，如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法，利用价值网络评估棋面优劣，策略网络选择最佳落子，且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练，达到蒙特卡洛树搜索水平，并将其与蒙特卡洛树搜索有机结合，取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步，也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外，神经网络在处理未知规则方面具有优势，虽然传统方法在处理象棋问题上可行，但对于围棋则困难重重，而神经网络专门应对此类未知规则情况。关于这部分内容，推荐阅读《这就是 ChatGPT》一书，其作者备受推崇，美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。

什么AI工具可以实现提取多个指定网页的更新内容

以下 AI 工具可以实现提取多个指定网页的更新内容： 1. Coze：支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容，可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时，输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序，标注要采集的内容，内容上传成功率高。 2. AI Share Card：能够一键解析各类网页内容，生成推荐文案，把分享链接转换为精美的二维码分享卡。通过用户浏览器，以浏览器插件形式本地提取网页内容。

以下是关于文字生成视频（文生视频）的相关信息：一些提供文生视频功能的产品： Pika：擅长动画制作，支持视频编辑。 SVD：Stable Diffusion 的插件，可在图片基础上生成视频。 Runway：老牌工具，提供实时涂抹修改视频功能，但收费。 Kaiber：视频转视频 AI，能将原视频转换成各种风格。 Sora：由 OpenAI 开发，可生成长达 1 分钟以上的视频。更多相关网站可查看：https://www.waytoagi.com/category/38 。制作 5 秒单镜头文生视频的实操步骤（以梦 AI 为例）：进入平台：打开梦 AI 网站并登录，新用户有积分可免费体验。输入提示词：涵盖景别、主体、环境、光线、动作、运镜等描述。选择参数并点击生成：确认提示词无误后，选择模型、画面比例，点击「生成」按钮。预览与下载：生成完毕后预览视频，满意则下载保存，不理想可调整提示词再试。视频模型 Sora：OpenAI 发布的首款文生视频模型，能根据文字指令创造逼真且充满想象力的场景，可生成长达 1 分钟的一镜到底超长视频，视频中的人物和镜头具有惊人的一致性和稳定性。

以下是在钉钉上学 AI 的相关内容：从 AI 助教到智慧学伴的应用探索：登录钉钉客户端，在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后，填写 AI 助理信息，设置完成即可创建成功。 AI 领导力向阳乔木：未提及具体的在钉钉上学 AI 的操作方法。基于 COW 框架的 ChatBot 实现步骤：创建应用：进入，登录后点击创建应用，填写应用相关信息。点击添加应用能力，选择“机器人”能力并添加。配置机器人信息后点击发布，发布后点击“点击调试”，会自动创建测试群聊，可在客户端查看。点击版本管理与发布，创建新版本发布。项目配置：点击凭证与基础信息，获取 Client ID 和 Client Secret 两个参数。参考项目，将相关配置加入项目根目录的 config.json 文件，并设置 channel_type:"dingtalk"，注意运行前需安装依赖。点击事件订阅，点击已完成接入，验证连接通道，会显示连接接入成功。使用：与机器人私聊或将机器人拉入企业群中均可开启对话。

以下是一些常见的 AI 术语解释： Agents（智能体）：一个设置了一些目标或任务，可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同，Agent 拥有复杂的工作流程，模型本质上可以自我对话，无需人类驱动每一部分的交互。属于技术范畴。 ASI（人工超级智能）：尽管存在争议，但通常被定义为超越人类思维能力的人工智能。属于通识范畴。 Attention（注意力）：在神经网络的上下文中，有助于模型在生成输出时专注于输入的相关部分。属于技术范畴。 Bias（偏差）：AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。属于技术范畴。 Chatbot（聊天机器人）：一种计算机程序，旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。属于通识范畴。 CLIP（对比语言图像预训练）：由 OpenAI 开发的 AI 模型，用于连接图像和文本，使其能够理解和生成图像的描述。属于技术范畴。 TPU（张量处理单元）：谷歌开发的一种微处理器，专门用于加速机器学习工作负载。属于技术范畴。 Training Data（训练数据）：用于训练机器学习模型的数据集。属于技术范畴。 Transfer Learning（迁移学习）：机器学习中的一种方法，其中对新问题使用预先训练的模型。属于技术范畴。 Validation Data（验证集）：机器学习中使用的数据集的子集，独立于训练数据集和测试数据集。用于调整模型的超参数（即架构，而不是权重）。属于技术范畴。 Knowledge Distillation（数据蒸馏）：数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集，使得在这一小数据集上训练出的模型，和在原数据集上训练得到的模型表现相似。在深度学习领域中被广泛应用，特别是在模型压缩和模型部署方面。可以帮助将复杂的模型转化为更轻量级的模型，并能够促进模型的迁移学习和模型集成，提高模型的鲁棒性和泛化能力。属于技术范畴。 RAG（检索增强生成）：检索增强生成。属于技术范畴。 Forward Propagation（前向传播）：在神经网络中，输入数据被馈送到网络并通过每一层（从输入层到隐藏层，最后到输出层）以产生输出的过程。网络对输入应用权重和偏差，并使用激活函数生成最终输出。属于技术范畴。 Foundation Model（基础模型）：在广泛数据上训练的大型 AI 模型，旨在适应特定任务。属于技术范畴。 GAN（通用对抗网络）：一种机器学习模型，用于生成类似于某些现有数据的新数据。使两个神经网络相互对抗：一个“生成器”，创建新数据，另一个“鉴别器”试图将数据与真实数据区分开来。属于技术范畴。 Generative AI/Gen AI（生成式 AI）：AI 的一个分支，专注于创建模型，这些模型可以根据现有数据的模式和示例生成新的原创内容，例如图像、音乐或文本。属于通识范畴。 GPU（图形处理单元）：一种特殊类型的微处理器，主要用于快速渲染图像以输出到显示器。在执行训练和运行神经网络所需的计算方面也非常高效。属于产品范畴。

怎么用AI实现手机自动记账

目前关于使用 AI 实现手机自动记账的方法，暂时没有相关内容。但一般来说，可能需要以下步骤：首先，需要选择一款支持 AI 功能的记账应用程序；其次，对该应用进行相关设置，例如关联银行账户、设定记账分类规则等；然后，利用应用中的 AI 功能，如智能识别消费记录、自动分类等。不过，具体的实现方式还会因不同的应用和技术而有所差异。

我能用AI实现手机自动记账吗

目前利用 AI 技术实现手机自动记账是可行的。通过使用具备自然语言处理和机器学习能力的 AI 应用，能够对您的消费信息进行智能识别和分类记录。例如，某些记账应用可以自动解析短信中的消费通知，或者通过语音输入您的消费描述来完成记账。但要实现较好的效果，可能需要您对相关应用进行一定的设置和训练，以适应您的消费习惯和记账需求。

我想用coze写一个能够自动提取我手机的支付记录然后记账的应用要怎么做

要使用 Coze 写一个能够自动提取手机支付记录然后记账的应用，您可以参考以下步骤： 1. 了解 Coze：COZE 是字节跳动旗下子公司推出的 AI Agent 构建工具，允许用户在无编程知识的基础上，使用自然语言和拖拽等方式构建 Agent，目前有丰富的插件生态且可以免费使用海量大模型。 2. 配置变现模板：设置套餐金额及时长：价格页信息默认包含 3 个套餐，可自行修改、删除、新增，套餐数量无上限，修改后无需保存即刻生效。订单与用户信息查看：在“管理后台”页面除了可以进行智能体配置，还可查看已付费订单以及注册用户，方便运营维护。完成所有项目配置后，点击【配置完成】即可邀请用户访问并体验您的 Coze 智能体。激活支付功能：配置该功能后，可实现平台收款、退款等操作，实现项目的商业变现。通过支付宝申请电脑网站支付，将申请到的 AppId、商户私钥、公钥按要求配置即可。详细的配置教程可以在'Zion 帮助中心'中搜索'支付'找到。 3. 学习记账管家相关知识：记账管家是基于 COZE 平台的能力搭建的一个记账应用，您可以直接和 coze 说您今天的收入或者支出情况，coze 会自动帮您记账，同时帮您计算出账户余额，每一笔记账记录都不会丢失。 4. 搭建教学：增加记账记录 add_accounting_record 工作流：用于增加记账的工作流，通过大语言模型把用户输入的非结构化数据转变成数据库能理解的结构化数据存入，并告诉用户结果。开始：定义一个{{prompt}}，把用户在 bot 输入的记账内容传入进来（例如：今天花了 233.32 元吃了一顿烧烤）。大模型：本次任务比较简单，使用任意模型都可以胜任，无需调整大模型参数。输入定义了一个{{input}}引用了【开始节点】的 prompt 参数。提示词让大模型根据{{input}}传入的内容进行拆解，分别识别【记账事项】、【发生时间】、【变动金额】，并把识别出来的内容分别赋值到{{item}}、{{occurrence_time}}、{{balance_change}}。输出定义了【记账事项】、【发生时间】、【变动金额】对应的{{item}}、{{occurrence_time}}、{{balance_change}}。数据库——插入记账记录：输入定义了{{item}}、{{occurrence_time}}、{{balance_change}}，用于接收从大模型节点{{item}}、{{occurrence_time}}、{{balance_change}}输出传入的内容。SQL 命令：不会写没关系，直接使用自动生成语法，输入命令如下，注意我们数据库存入的金额最小单位是分，所以在最终的语法，{{account_change}}100；意思当用户说我花了 2.23 元，数据库存储的是 2.23100=223。提示词：把 item、occurrence_time、account_change 存入到 user_accounting_records 表的{{item}}、{{occurrence_time}}、{{account_change}}中。数据库——查询账户余额。

coze 语音克隆

以下是关于语音克隆的相关信息：有一款适合小白用户的开源数字人工具，具有以下特点和功能：特点：一键安装包，无需配置环境，简单易用。功能：生成数字人视频，支持语音合成和声音克隆，操作界面中英文可选。系统兼容：支持 Windows、Linux、macOS。模型支持：MuseTalk（文本到语音）、CosyVoice（语音克隆）。使用步骤：下载 8G + 3G 语音模型包，启动模型即可。 GitHub 链接：官网链接：另外，CosyVoice 声音克隆仅需几秒音频样本，无需额外训练数据，可控制情绪情感、语速、音高。详细内容：https://xiaohu.ai/p/10954 项目地址：https://funaudiollm.github.io 在线演示：https://modelscope.cn/studios/iic/CosyVoice300M

GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架，具有以下特点和使用步骤：特点： 1. 零样本 TTS：输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练：只需 1 分钟的训练数据即可微调模型，提高声音相似度和真实感，模仿出来的声音更接近原声且自然。 3. 跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。 4. 易于使用的界面：集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具，帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统：项目可以在不同的操作系统上安装和运行，包括 Windows。 6. 提供预训练模型：项目提供了一些已经训练好的模型，可直接下载使用。使用步骤： 1. 前置数据获取处理：选择音频，开启切割。有噪音时，进行降噪处理。降噪处理完成，开启离线 ASR。 2. GPTSowitsTTS：训练集格式化：开启一键三连，耐心等待。微调训练：开启 SoVITS 训练和 GPT 训练。推理：开始推理刷新模型选择微调后的模型 yoyo。 3. 声音复刻：开启声音复刻之旅，可实现跨多语种语言的声音。相关资源： GitHub：https://github.com/RVCBoss/GPTSoVITS 视频教程：https://bilibili.com/video/BV12g4y1m7Uw/ 注册 colab 并启动准备：点击进入按照步骤注册即可 https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 ，新建笔记本，运行脚本启动 GPTSo VITS，整个过程比较漫长，需要耐心等待，可以整个脚本一起运行，也可以一段一段运行；运行过程包括克隆项目代码库、进入项目目录、安装 Python 依赖包、安装系统依赖、下载 NLTK 资源、启动 Web UI，运行成功后出现 public URL。实践样本： AIyoyo 普通话满江红 AIyoyo 粤语版满江红

文字转语音

以下是关于文字转语音的相关内容： DubbingX2.0.3：界面与国内版相同，使用了沉浸式翻译功能，可能看起来较乱。第一个选项是文字转语音，与国内版相同，不做重复演示。重点介绍第二项“创建您的语音克隆”：上传语音（想克隆的声音原始文件）。给声音命名，方便以后配音选择。选择语言。勾选相关选项，点击转变即可生成。注意：原音频若有背景音乐，最好在剪影中去除，以使生成的音色模型效果更好、更纯净。 Hedra：可以直接文字转语音，目前有 6 个语音。也可以直接上传音频。

语音转文字

以下是关于语音转文字的相关信息：推荐使用 OpenAI 的 wishper 进行语音转文字，相关链接：https://huggingface.co/openai/whisperlargev2 。一分钟搞定 23 分钟的音频，相关链接：https://huggingface.co/spaces/sanchitgandhi/whisperjax 。此项目在 JAX 上运行，后端支持 TPU v48，与 A100 GPU 上的 PyTorch 相比，快 70 多倍，是目前最快的 Whisper API 。语音转文本（Speech to text）：介绍：语音转文本 API 提供转录和翻译两个端点，基于开源大型v2 Whisper 模型。可用于将音频转录为任何语言，将音频翻译并转录成英语。目前文件上传限制为 25MB，支持 mp3、mp4、mpeg、mpga、m4a、wav 和 webm 等输入文件类型。快速入门：转录：转录 API 的输入是要转录的音频文件及所需输出格式的音频文字稿，默认响应类型为包含原始文本的 JSON，可添加更多带有相关选项的form 行设置其他参数。翻译：翻译 API 输入任何支持语言的音频文件，必要时转录成英语，目前仅支持英语翻译。更长输入：默认 Whisper API 仅支持小于 25MB 的文件，若音频文件更长，需分成小于 25MB 的块或使用压缩后格式，可使用 PyDub 开源 Python 软件包拆分声频文件，但 OpenAI 对其可用性或安全性不作保证。提示：可使用提示提高 Whisper API 生成的转录质量，如改善特定单词或缩略语的识别、保留分段文件的上下文、避免标点符号的省略、保留填充词汇、处理不同书写风格等。

实时翻译视频语音

以下是为您整理的相关信息：实时翻译视频语音的工具： StreamSpeech：这是一个实时语言翻译模型，能够实现流媒体语音输入的实时翻译，输出目标语音和文本，具有同步翻译、低延迟的特点，还能展示实时语音识别结果。给视频配音效的 AI 工具：支持 50 多种语言的配音，音质自然流畅，提供实时配音功能，适用于直播和演讲，能将语音转录为文本，方便后期字幕制作和编辑。 Vidnoz AI：支持 23 多种语言的配音，音质高保真，支持文本转语音和语音克隆功能，提供语音参数自定义和背景音乐添加工具，提供面向个人和企业的经济实惠的定价方案。在选择视频配音工具时，请考虑支持的语言数量、语音质量、自定义选项和价格等因素。

文本转语音

以下是关于文本转语音的相关信息：在线 TTS 工具推荐： Eleven Labs：https://elevenlabs.io/ ，是一款功能强大且多功能的 AI 语音软件，能高保真地呈现人类语调和语调变化，并能根据上下文调整表达方式。 Speechify：https://speechify.com/ ，是一款人工智能驱动的文本转语音工具，可作为多种平台的应用使用，用于收听网页、文档、PDF 和有声读物。 Azure AI Speech Studio：https://speech.microsoft.com/portal ，提供了支持 100 多种语言和方言的语音转文本和文本转语音功能，还提供了自定义的语音模型。 Voicemaker：https://voicemaker.in/ ，可将文本转换为各种区域语言的语音，并允许创建自定义语音模型，易于使用，适合为视频制作画外音或帮助视障人士。语音合成技术原理：传统的语音合成技术一般会经过以下三个步骤： 1. 文本与韵律分析：先将文本分词，标明每个字的发音以及重音、停顿等韵律信息，然后提取文本的特征，生成特征向量。 2. 声学处理：通过声学模型将文本特征向量映射到声学特征向量。 3. 声音合成：使用声码器将声学特征向量通过反变换生成声音波形，然后一次拼接得到整个文本的合成语音。在反变换过程中，可以调整参数，从而改变合成语音的音色、语调、语速等。 OpenAI 新一代音频模型： OpenAI 于 2025 年 3 月 20 日推出了全新的音频模型，包括改进的语音转文本和文本转语音功能。语音转文本模型在单词错误率和语言识别准确性方面相较于原有的 Whisper 模型有显著提升，能更好地捕捉语音细节，减少误识别，在多语言评估基准上表现优异。文本转语音模型具备更高的可定制性，支持个性化语音风格，目前支持人工预设的语音样式，并通过监控确保语音与合成预设一致。测试地址：https://www.openai.fm/ 直播回放：https://www.youtube.com/watch?v=lXb0L16ISAc 说明文档：https://openai.com/index/introducingournextgenerationaudiomodels/ 内容由 AI 大模型生成，请仔细甄别。