直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

ocr

回答

关于 OCR 的相关信息如下:

  • GPT 的 OCR 识别问题及解决方案:
    • 问题:开启代码执行功能时,GPT 会尝试用代码完成 OCR,导致无法正确识别图片文字。
    • 解决方案:
      • 如果是自定义 GPT,关闭 Code Interpreter。
      • 无法关闭时,提问时明确说明“不要执行代码,请用自身多模态能力识别文字”。
      • 直接使用 ChatGPT,而非 GPT。参考链接:https://x.com/dotey/status/1869947164249489507
  • 开源的 Zerox OCR 工具:
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

宝玉 日报

?宝玉日报「12月20日」✨✨✨✨✨✨✨✨1⃣️?️GPT的OCR识别问题及解决方案问题:开启代码执行功能时,GPT会尝试用代码完成OCR,导致无法正确识别图片文字。解决方案:1.如果是自定义GPT,关闭Code Interpreter。2.无法关闭时,提问时明确说明“不要执行代码,请用自身多模态能力识别文字”。3.直接使用ChatGPT,而非GPT。?[https://x.com/dotey/status/1869947164249489507](https://x.com/dotey/status/1869947164249489507)2⃣️?ChatGPT桌面应用升级发布主要亮点:支持与多种应用协作,优化工作效率。新功能:1.实时协作:通过Warp终端、Xcode实现智能协作。2.文档支持:支持Notion、Apple Notes等工具。3.语音交互:新增语音助手模式,体验更智能。4.搜索辅助:确保输出信息的准确性。可用性:Mac版本现已发布,Windows版本即将推出。?[https://x.c](https://x.com/dotey/status/1869844320322204154)[om/dotey/status/1869844320322204154](https://x.com/dotey/status/1869844320322204154)3⃣️?Gemini推理模型已上线AI Studio

XiaoHu.AI日报

?Xiaohu.AI日报「10月20日」✨✨✨✨✨✨✨✨1⃣️?️Zerox OCR工具:开源GPT OCR工具,支持PDF、DOCX转换为Markdown。可并发处理,选择特定页面及模型选项。详细介绍?[https://xiaohu.ai/p/14778](https://xiaohu.ai/p/14778)?[https://getomni.ai/ocr-demo](https://getomni.ai/ocr-demo)2⃣️?BrightEdge数据揭示:OpenAI的SearchGPT以150%增长速度成竞争对手。YouTube内容引用增长310%,促进品牌搜索表现。?[https://x.com/imxiaohu/status/1847491108642963573](https://x.com/imxiaohu/status/1847491108642963573)3⃣️?️ChatGPT高级语音模式:即将上线,但应用场景有限,API成本降低将拓展用途。?[https://x.com/imxiaohu/status/1847575551424548931](https://x.com/imxiaohu/status/1847575551424548931)4⃣️?Viggle视频生成:文字描述生成动态视频,基于JST-1模型理解物理运动。可控制角色动作和场景,创建3D角色和场景。?[http://viggle.ai](http://viggle.ai)?[https://discord.gg/5kk5SKwTWd](https://discord.gg/5kk5SKwTWd)?[https://x.com/imxiaohu/status/1771173928591093940](https://x.com/imxiaohu/status/1771173928591093940)

XiaoHu.AI日报

?Xiaohu.AI日报「10月20日」✨✨✨✨✨✨✨✨1⃣️?️Zerox OCR工具:开源GPT OCR工具,支持PDF、DOCX转换为Markdown。可并发处理,选择特定页面及模型选项。详细介绍?[https://xiaohu.ai/p/14778](https://xiaohu.ai/p/14778)?[https://getomni.ai/ocr-demo](https://getomni.ai/ocr-demo)2⃣️?BrightEdge数据揭示:OpenAI的SearchGPT以150%增长速度成竞争对手。YouTube内容引用增长310%,促进品牌搜索表现。?[https://x.com/imxiaohu/status/1847491108642963573](https://x.com/imxiaohu/status/1847491108642963573)3⃣️?️ChatGPT高级语音模式:即将上线,但应用场景有限,API成本降低将拓展用途。?[https://x.com/imxiaohu/status/1847575551424548931](https://x.com/imxiaohu/status/1847575551424548931)4⃣️?Viggle视频生成:文字描述生成动态视频,基于JST-1模型理解物理运动。可控制角色动作和场景,创建3D角色和场景。?[http://viggle.ai](http://viggle.ai)?[https://discord.gg/5kk5SKwTWd](https://discord.gg/5kk5SKwTWd)?[https://x.com/imxiaohu/status/1771173928591093940](https://x.com/imxiaohu/status/1771173928591093940)

其他人在问
COE团队需要什么AI能力,比如AI辅助编程;AI部署+和调优;AI智能体;AI提示词; OCR识别
COE 团队可能需要以下 AI 能力: 1. AI 辅助编程:虽然 AI CODING 目前适用于小场景和产品的第一个版本,但在复杂应用中可能存在需求理解错误导致产品出错的情况。 2. AI 部署和调优:涵盖服务器创建、搭建微信机器人到引入 coze API 的全过程,包括 Docker 部署、本地运行、RailWay 部署等多种方式。 3. AI 智能体:从最初只有对话框的 chatbot 到有更多交互方式,低代码或零代码的工作流等场景做得较好。例如以证件照为例,实现了相关智能体和交互。创建智能体工作流包括创建、编辑人设、编排设计等步骤。 4. AI 提示词:在编写系统提示词时需要用{{input}}作为参数引入,以使大模型知道需要生成与输入相关的结果。 5. OCR 识别:未提及相关具体内容。 同时,在图像能力方面,支持图片生成、图片识别、图生图等,可选择 Dal3、stable diffusion、replicate、midjourney、CogView3、vision 模型。具有丰富插件,支持个性化插件扩展,已实现多角色切换、文字险、敏感词过滤、聊天记录总结、文档总结和对话、联网搜索等插件。通过上传知识库文件可自定义专属机器人,作为数字分身、智能客服、私域助手使用,基于 LinkAI 实现。
2025-04-09
有哪些效果好的开源OCR模型值得推荐
以下是一些效果较好的开源 OCR 模型推荐: 1. Mistral OCR:当前最强的 OCR 模型,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取!领取地址: 2. Gemini 2.0 Flash:也是一款 OCR 模型。
2025-03-24
OCR
OCR(Optical Character Recognition,光学字符识别)是一种将图像中的文字转换为计算机可处理的文本数据的技术。在移动端图片视觉处理中,特别是试卷拍照去除书写笔迹方面,OCR 有着重要的应用。以下是相关的处理方法: 1. 图像预处理: 图像去噪:使用去噪算法(如高斯滤波、中值滤波)去除图像中的噪声。 图像增强:通过增强算法(如直方图均衡化、对比度增强)提升图像的清晰度和对比度。 2. 图像分割:使用图像分割算法将试卷图像中的书写笔迹和背景分离。常用的分割算法包括阈值分割、边缘检测和基于区域的分割方法。 3. 文字检测:在分割后的图像中,使用文字检测算法(如基于深度学习的文本检测模型)识别出试卷上的文字区域。 4. 文字识别:对检测到的文字区域进行文字识别,将文字内容转换为计算机可处理的文本数据。常用的文字识别技术包括基于深度学习的端到端文本识别模型和传统的 OCR 技术。 5. 后处理:根据需求进行后处理,如去除残余的噪点、填补文字区域的空白等。 6. 机器学习模型训练(可选):如有足够的数据,可以采用机器学习技术训练模型,通过学习样本中的书写笔迹特征来自动去除试卷上的笔迹。 7. 优化算法:对整个处理流程进行优化,提高处理速度和准确度。可以采用并行计算、硬件加速等方法提升算法的效率。 8. 移动端集成:将设计好的算法和模型集成到移动应用程序中,以实现试卷拍照去除书写笔迹的功能。可以使用移动端开发框架(如 iOS 的 Core ML、Android 的 TensorFlow Lite)来实现模型的部署和调用。 当前最强的 OCR 模型如 Mistral OCR,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat&API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取! 在一些项目中,如 0 基础跨界 AI 编程共学零基础手搓 AI 拍立得,也应用了 OCR 识别,对图片进行 OCR 识别以获取图片中的文本信息,并对识别结果进行调整和优化。
2025-03-24
OCR识别
OCR 识别是指对图片进行光学字符识别,以获取图片中的文本信息。以下是关于 OCR 识别的一些相关内容: 在拍立得工作流中,OCR 识别可对图片进行处理,获取文本信息,并对识别结果进行调整和优化。 GPT 在进行 OCR 识别时可能存在问题,如开启代码执行功能时会尝试用代码完成 OCR 导致无法正确识别图片文字。解决方案包括:如果是自定义 GPT,关闭 Code Interpreter;无法关闭时,提问时明确说明“不要执行代码,请用自身多模态能力识别文字”;直接使用 ChatGPT 而非 GPT。 在移动端试卷拍照去除书写笔迹方面,OCR 识别可作为其中的一个环节。具体步骤包括图像预处理(去噪、增强)、图像分割、文字检测、文字识别、后处理等,还可以进行机器学习模型训练和算法优化,并将其集成到移动端应用程序中。
2025-03-18
请罗列出你掌握的OCR技术 以【方式名称+曾使用过自认最熟练的操作】的格式填写
以下是我掌握的 OCR 技术: OCR 识别:对图片进行 OCR 识别,获取图片中的文本信息,并对识别结果进行调整和优化。
2025-03-10
我希望你向我推荐一个AI培养我画画的兴趣爱好。我目前23岁,无任何画画基础,目前用IPA中的procrate APP绘画比较方便,我喜欢颜色鲜艳的简笔画,但是我对procrate APP并不熟悉,希望有一个AI能充当我的花花启蒙老师,带领我使用procrate APP学习简笔画
很抱歉,以上提供的内容中没有直接针对您需求的有效推荐。不过,您可以考虑以下途径: 1. 【野菩萨的 AIGC 资深课】:由工信部下属单位【人民邮电出版社】开设,是市面上为数不多的值得推荐的 AI 课程之一,也是全网技术更新最快的课程!课程内容涵盖 AI 绘画等多个体系的知识。 2. 您还可以在网络上搜索关于 Procreate APP 以及简笔画的教学视频和教程,有很多免费或付费的资源可供选择。 希望这些建议对您有所帮助。
2025-02-10