直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

为什么LLM不能很好读取pdf文档

回答

LLM 不能很好读取 PDF 文档的原因较为复杂,主要包括以下几点:

  1. 正确处理 PDF 文档并从中获取信息比想象中复杂。
  2. Embedding 并不是直接输入 LLM,只是用于召回相关文本,且纯向量化召回在多项 BEIR benchmark 上甚至不如 BM25。
  3. 向量数据库无法让模型突破自身的 context limit。
  4. 目前 LLM 产品套路还不够清晰,低代码 LLM 平台解决的问题较少,反而限制发挥。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

季逸超Peak 《一个AI创业者的反思、观察和预测》

•对开发者来说低代码LLM平台解决的问题很少,反⽽限制发挥;•在未来LLM产品套路更清晰后可能低代码会有⽤,但现在还早。向量数据库不是Long-term Memory•向量数据库⽆法让模型突破⾃身的context limit;• Embedding并不是直接输⼊ LLM,⽽只是⽤于召回相关⽂本;•纯向量化召回在多项BEIR benchmark上甚⾄不如BM25;•在⽂本场景下没有不可替代性,但多模态是个机会。Embedding模型和⽂档模型被低估• Embedding模型是GPT之外的⼀个单独的encoder模型;•开源的embedding模型较OpenAI和Cohere的专有模型差距较⼤;•正确地处理PDF ⽂档并从中获取信息⽐想象中的复杂;• Embedding与⽂档模型的应⽤场景远不⽌ LLM。懂AI的产品经理是稀缺资源• ⽣成式AI产品从不确定性、响应速度、服务成本等⻆度都与此前⼤不相同;•产品经理在构建数据⻜轮中起到重要作⽤;• To B ⽅向的产品经理缺⼝更⼤;•任何产品都必须考虑如何应对AI的冲击。不要⽤技术热点指导创投,尤其是现在•顺着技术发展的脉络做产品很容易跑到⼤公司的航道上然后被卷死;•此刻接收到的信息和看到的热点很多是妥协后的结果;• Prompt is all you need ❌ Prompt is all you have ✅;

皇子:LLM经典论文速读版,看完感觉自己通透了

对于渴望深入理解AI的爱好者和研究者来说,阅读经典论文不仅是获取知识的途径,更能让我们产生新的思维方式。历史文章分享过一次《Attention is All You Need》论文的精读,我也不是算法和机器学习的从业者,有很多不解,但是不影响我在后面学习大语言模型(LLM)相关技术时提供了理论基础。《Attention is All You Need》这篇论文堪称经典一点不为过,早期的GPT、BERT、T5大语言模型都是在此论文提供的Transformers框架上进行后续的模型设计和优化的。所以今天,为大家推荐31篇LLM的经典论文之作速读版,看完感觉自己通透了,包含:大语言模型架构、RAG、预训练、微调、提示词等。在此之前,先分享一个想看中文翻译版原文的高效办法:为了方便中文阅读:安装浏览器插件“沉浸式翻译(https://immersivetranslate.com)”,支持多种浏览器,多个翻译服务。PDF翻译后样式不方便阅读,调整为HTM版本:将arxiv PDF论文原地址域名中的x更换成5即变成可访问的HTML版本链接,然后就可以愉快的使用“沉浸式翻译”进行原文阅读了。

生成式人工智能领域的 4 个突破点

LLMs的真正威力在于使自然语言成为行动的媒介。LLMs对常见且有详细文档的系统具有复杂的理解能力,但它们无法执行从这些系统中提取的任何信息。例如,OpenAI的ChatGPT、Anthropic的Claude和Character AI的Lily可以详细描述如何预订航班,但它们本身无法原生地预订航班(尽管像ChatGPT的插件等技术进展正在推动这一边界)。Amodei表示:“这个大脑在理论上拥有所有这些知识,只是缺少从名称到按钮的映射。”他说:“连接这些电缆并不需要太多的训练。你有一个没有实体的大脑,它知道如何移动,但它还没有连接上手臂和腿部。”

其他人在问
LLM应用可观测性
LLM 应用的可观测性主要体现在以下方面: LangChain:借助 LangSmith 提供更好的日志、可视化、播放和跟踪功能,以便监控和调试 LLM 应用。LangSmith 是基于 Web 的工具,能查看和分析细化到 class 的输入和输出,还提供跟踪功能,用于记录和展示 LLM 应用的执行过程和状态,以及 LLM 的内部信息和统计数据。 Langfuse:为大模型应用提供开源可观测性和分析功能,在可视化界面中可探索和调试复杂的日志和追踪,并使用直观的仪表板改善成本、降低成本、减少延迟,提高响应质量。 此外,微软(中国)的《面向大模型的新编程范式》报告中也强调了在线监控和可观测性的重要性。
2025-04-11
LLM模型响应时间较长,如何处理超时时间问题
处理 LLM 模型响应时间过长导致的超时问题,可以考虑以下方法: 1. 参数有效调整:这是一种新颖的微调方法,通过仅训练一部分参数来减轻微调 LLM 的挑战。这些参数可能是现有模型参数的子集,或者是一组全新的参数,例如向模型添加一些额外的层或额外的嵌入到提示中。 2. 优化提示设计:采用合适的提示方法,如零样本提示、一次性提示、Fewshot prompting 等。零样本提示是只给出描述任务的提示;一次性提示是让 LLM 执行任务的单个示例;Fewshot prompting 是让 LLM 执行任务的少量示例。同时,可以使用结构化模式设计提示,包含上下文、问题示例及相应答案等组件,以指示模型应如何响应。 3. 避免频繁调整某些参数:尤其是 Top K 和 Top P,不需要经常对其进行调整。 4. 关注模型响应质量:即使有良好的提示设计,模型输出仍可能不稳定,需要持续关注和优化。 5. 考虑成本和时间:微调大型模型可能耗时且成本高,为大模型提供服务也可能涉及额外麻烦和成本,需要综合评估和优化。
2025-04-11
除了LLM,就没有AI模型了吗?
除了 LLM ,还有很多其他类型的 AI 模型。以下为您详细介绍: 1. 生成式 AI:可以生成文本、图片、音频、视频等内容形式。其中生成图像的扩散模型就不是大语言模型。 2. 机器学习:电脑找规律学习,包括监督学习、无监督学习、强化学习。 监督学习:有标签的训练数据,算法的目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习:学习的数据没有标签,算法自主发现规律。经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。 强化学习:从反馈里学习,最大化奖励或最小化损失,类似训小狗。 3. 深度学习:一种参照人脑有神经网络和神经元的方法(因为有很多层所以叫深度)。神经网络可以用于监督学习、无监督学习、强化学习。 4. 谷歌的 BERT 模型:可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。生成式 AI 生成的内容,叫做 AIGC 。
2025-04-11
linux下安装 anythingLLM
以下是在 Linux 下安装 AnythingLLM 的相关指导: 1. 安装地址:https://useanything.com/download 。 2. 安装完成后会进入配置页面,主要分为三步: 第一步:选择大模型。 第二步:选择文本嵌入模型。 第三步:选择向量数据库。 3. AnythingLLM 中有 Workspace 的概念,可以创建自己独有的 Workspace 与其他项目数据进行隔离。 首先创建一个工作空间。 上传文档并且在工作空间中进行文本嵌入。 选择对话模式,提供了 Chat 模式(大模型会根据自己的训练数据和上传的文档数据综合给出答案)和 Query 模式(大模型仅仅会依靠文档中的数据给出答案)。 4. 完成上述配置后,即可与大模型进行对话。 此外,在 GitHubDaily 开源项目列表 2023 年复盘的 AIGC 部分中,也有关于 AnythingLLM 的介绍: 是一个可打造成企业内部知识库的私人专属 GPT!可以将任何文档、资源或内容转换为大语言模型(LLM)知识库,使得在对话过程中可引用到里面的内容。 本文的思路来源于视频号博主黄益贺,作者按照他的视频进行了实操,并附加了一些关于 RAG 的额外知识。
2025-03-27
anythingLLM本地部署
以下是关于本地部署大模型以及搭建个人知识库的相关内容: 一、引言 作者是大圣,一个致力于使用 AI 工具将自己打造为超级个体的程序员,目前沉浸于 AI Agent 研究。本文将分享如何部署本地大模型及搭建个人知识库,读完可学习到如何使用 Ollama 一键部署本地大模型、了解 ChatGPT 信息流转、RAG 概念及核心技术、通过 AnythingLLM 搭建本地化数据库等。 五、本地知识库进阶 如果想要对知识库进行更灵活掌控,需要额外软件 AnythingLLM,它包含所有 Open WebUI 能力,并额外支持选择文本嵌入模型和向量数据库。 安装地址:https://useanything.com/download 。安装完成后进入配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 构建本地知识库: AnythingLLM 中有 Workspace 概念,可创建独有 Workspace 与其他项目数据隔离。 1. 首先创建一个工作空间。 2. 上传文档并在工作空间中进行文本嵌入。 3. 选择对话模式,提供 Chat 模式(大模型根据训练数据和上传文档综合给出答案)和 Query 模式(大模型仅依靠文档数据给出答案)。 配置完成后可进行测试对话。 六、写在最后 作者推崇“看十遍不如实操一遍,实操十遍不如分享一遍”。如果对 AI Agent 技术感兴趣,可联系作者或加其免费知识星球(备注 AGI 知识库)。 本文思路来源于视频号博主黄益贺,作者按照其视频进行实操并附加了一些关于 RAG 的额外知识。
2025-03-26
LLM的原理
LLM(大语言模型)的工作原理如下: 以“我今天吃了狮子头和蔬菜”这句话为例,在 Transformer 中,会由 Attention 层对其加入更多信息补充,如“狮子头是一道菜”“今天是星期六”等,这些补充信息作为输入给到下一个 Attention 层,层与层之间,哪些信息补充、保留、传递,由模型自主学习,最终模型把海量数据以关系网形式“消化”并保留重要相关性。 形象地说,就像人阅读文章时的连贯性注意力过程,在阅读理解时,脑子里会消化吸收记忆,记忆的不是点状知识,而是网状经验。 大模型以词向量和 Transformer 模型学习海量知识,把知识作为向量空间中的关系网存储,接受输入时通过向量空间中的匹配进行输出。 观察大模型回复,是一个字一个字流式输出的,因为大模型确实在一个字一个字地推理生成内容。比如输入法输入联想,根据输入的单个字推测下一个字,加入上下文能帮助模型理解下一个字。但存在两个问题:一是全量数据计算算力吃不消,二是仅算字的概率易被不相干信息干扰,此时词向量机制和 Transformer 模型中的 Attention 自注意力机制解决了难题。 另外,RAG 对大语言模型的作用就像开卷考试对学生,事实性知识与 LLM 的推理能力相分离,被存储在容易访问和及时更新的外部知识源中,分为参数化知识(模型训练中学习得到,隐式储存在神经网络权重中)和非参数化知识(存储在外部知识源,如向量数据库中)。
2025-03-25
那些ai工具可以world转pdf
以下是一些可以将 Word 转换为 PDF 的 AI 工具: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 内容由 AI 大模型生成,请仔细甄别。
2025-04-15
那个ai可以world转pdf
以下是一些可以将 Word 转换为 PDF 的 AI 产品和方法: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 另外,还有一种将 PDF 变成可交互网页的方法: 1. 生成 PDF:将文件转换为 PDF 格式,其他文件格式也可以,但 PDF 效果更好。如果希望在文章中加入图片,需要将图片转换为 markdown 格式。如果是网络图片,直接复制图片的 url,右键图片,选择复制 url,然后用 markdown 格式写入文档。如果是自己的图片,可以使用图床服务(比如如 https://sm.ms/)托管图片,生成一个公链。如果想插入视频,也很简单,找到公网的视频地址(自己的本地视频先上传到公网,比如 B 站之类的)。在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项。在得到 url 后,依旧是使用 markdown 格式来写入视频地址。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-15
有没有把pdf转成word的ai
以下是一些可以将 PDF 转换成 Word 的 AI 工具和方法: 1. DeepL(网站):,点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):,安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):,下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):,使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):,点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 请注意,内容由 AI 大模型生成,请仔细甄别。
2025-04-14
如何通过提交的pdf文件自动生成流程图。
目前在 AI 领域,直接通过提交的 PDF 文件自动生成流程图还存在一定的技术挑战。通常情况下,需要先将 PDF 文件中的内容进行解析和提取,然后利用专门的流程设计工具或软件来手动创建流程图。但随着技术的不断发展,未来可能会有更便捷和高效的方法来实现这一功能。
2025-04-13
ai的好用pdf工具有哪些
以下是一些好用的 AI 相关 PDF 工具: 1. DeepL(网站):点击页面「翻译文件」按钮,上传 PDF、Word 或 PowerPoint 文件即可。 2. 沉浸式翻译(浏览器插件):安装插件后,点击插件底部「更多」按钮,选择「制作双语 BPUB 电子书」、「翻译本地 PDF 文件」、「翻译 THML/TXT 文件」、「翻译本地字幕文件」。 3. Calibre(电子书管理应用):下载并安装 calibre,并安装翻译插件「Ebook Translator」。 4. 谷歌翻译(网页):使用工具把 PDF 转成 Word,再点击谷歌翻译「Document」按钮,上传 Word 文档。 5. 百度翻译(网页):点击导航栏「文件翻译」,上传 PDF、Word、Excel、PPT、TXT 等格式的文件,支持选择领域和导出格式(不过进阶功能基本都需要付费了)。 6. 彩云小译(App):下载后点击「文档翻译」,可以直接导入 PDF、DOC、DOCX、PPT、PPTX、TXT、epub、srt 等格式的文档并开始翻译(不过有免费次数限制且进阶功能需要付费)。 7. 微信读书(App):下载 App 后将 PDF 文档添加到书架,打开并点击页面上方「切换成电子书」,轻触屏幕唤出翻译按钮。 内容由 AI 大模型生成,请仔细甄别。
2025-03-27
pdf生成视频
以下是关于 PDF 生成视频的相关信息: 将 PDF 转换为可交互网页: 先将文件转换为 PDF 格式,其他格式也可行,但 PDF 效果更佳。 若在文章中加入图片,网络图片可直接复制其 URL,右键图片选择复制 URL 后用 Markdown 格式写入文档;自己的图片可使用图床服务(如 https://sm.ms/)托管生成公链。 插入视频时,先将本地视频上传至公网(如 B 站),在视频页面寻找“分享”按钮,点击“嵌入”或“嵌入代码”选项获取 URL,用 Markdown 格式写入。 使用 Adobe Firefly 生成带有文本提示和图像的视频: 在 Advanced 部分,可用 Seed 选项添加种子编号,控制 AI 创建内容的随机性。相同种子、提示和控制设置可重新生成类似视频剪辑。 在 Adobe Firefly 网站(https://firefly.adobe.com/)选择“生成视频”。 在 Generate video 页面的 Prompt 字段输入文本提示,也可在 Image 部分的 Upload 选项使用图像作为第一帧并提供方向参考。添加图像可使生成的视频更符合预期。 在 General settings 部分可确定Aspect ratio 和 Frames per second。
2025-03-22
国内好用的文档排版AI工具
以下是国内一些好用的文档排版 AI 工具: 1. Grammarly:不仅是语法和拼写检查工具,还提供排版功能,可改进文档整体风格和流畅性。 2. QuillBot:AI 驱动的写作和排版工具,能改进文本清晰度和流畅性,保持原意。 3. Latex:虽不是纯粹的 AI 工具,但在学术论文排版方面广泛使用,有许多 AI 辅助的编辑器和插件简化排版过程。 4. PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 5. Wordtune:AI 写作助手,重新表述和改进文本,使其更清晰专业,保持原始意图。 6. Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于您的具体需求,如文档类型、出版标准和个人偏好。对于学术论文,Latex 和 Overleaf 受欢迎;对于一般文章和商业文档,Grammarly 和 PandaDoc 等可能更适用。 此外,还有一些与文档相关的 AI 工具,如文章润色工具: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,优化文章语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可根据输入生成符合要求的学术论文。 制作 PPT 的 AI 工具: 1. Gamma:在线 PPT 制作网站,通过输入文本和想法提示快速生成幻灯片,支持嵌入多媒体格式。 2. 美图 AI PPT:由美图秀秀开发团队推出,通过输入简单文本描述生成专业 PPT 设计,包含丰富模板库和设计元素。 3. Mindshow:AI 驱动的 PPT 辅助工具,提供自动布局、图像选择和文本优化等智能设计功能。 4. 讯飞智文:科大讯飞推出的 AI 辅助文档编辑工具,利用语音识别和自然语言处理技术优势,提供智能文本生成、语音输入、文档格式化等功能。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-13
自动翻译英文文档
以下是关于您提出的“自动翻译英文文档”的相关内容: 一个基于 Python 的网页截图工具具有自动翻译英文内容为中文的功能。 在 Cursor 编辑器中,可直接在 Cursor Chat 里提出将中文版博客翻译成英文的要求,它会给出英文版本的文章,还能自动对比中英文文档并高亮差别,方便对英文进行直观修改,最终完成翻译。
2025-04-11
AI文本工具操作文档
以下是为您整理的一些 AI 文本工具的操作文档: AIGC 论文检测网站 1. 功能:提供免费的 AI 内容检测工具,可识别文本是否由 AI 生成。 使用方法:将文本粘贴到在线工具中,点击检测按钮,系统会提供分析结果。 2. GPTZero 功能:专门设计用于检测由 GPT3 生成的内容,适用于教育和出版行业。 使用方法:上传文档或输入文本,系统会分析并提供报告,显示文本是否由 GPT3 生成。 3. Content at Scale 功能:提供 AI 内容检测功能,帮助用户识别文本是否由 AI 生成。 使用方法:将文本粘贴到在线检测工具中,系统会分析并提供结果。 【TecCreative】帮助手册 1. 创意工具箱 AI 字幕 智能识别视频语言并生成对应字幕,满足海外多国投放场景需求。 操作指引:点击上传视频——开始生成——字幕解析完成——下载 SRT 字幕。注意:支持 MP4 文件类型,大小上限为 50M。 文生图 仅需输入文本描述,即可一键生成图片素材,海量创意灵感信手拈来! 操作指引:输入文本描述(关键词或场景描述等)——选择模型(注意 FLUX 模型不可商用)——开始生成——下载。 AI 翻译 支持多语种文本翻译,翻译结果实时准确,助力海外投放无语言障碍! 操作指引:输入原始文本——选择翻译的目标语言——开始生成。 TikTok 风格数字人 适配 TikTok 媒体平台的数字人形象上线,100+数字人模板可供选择,助力 TikTok 营销素材生产无难度! 操作指引:输入口播文案——选择数字人角色——点击开始生成。视频默认输出语言和输入文案语言保持一致,默认尺寸为 9:16 竖版。 多场景数字人口播配音 支持生成不同场景下(室内、户外、站姿、坐姿等)的数字人口播视频,一键满足多场景投放需求! 操作指引:输入口播文案——选择数字人角色和场景——选择输出类型——点击开始生成。视频默认输出语言和输入文案语言保持一致。 工具教程:AI 漫画 Anifusion 网址:https://anifusion.ai/ ,twitter 账号:https://x.com/anifusion_ai 功能: AI 文本生成漫画:用户输入描述性提示,AI 会根据文本生成相应的漫画页面或面板。 直观的布局工具:提供预设模板,用户也可自定义漫画布局,设计独特的面板结构。 强大的画布编辑器:在浏览器中直接优化和完善 AI 生成的艺术作品,调整角色姿势、面部细节等。 多种 AI 模型支持:高级用户可访问多种 LoRA 模型,实现不同的艺术风格和效果。 商业使用权:用户对在平台上创作的所有作品拥有完整的商业使用权,可自由用于商业目的。 使用案例: 独立漫画创作:有抱负的漫画艺术家无需高级绘画技能即可将他们的故事变为现实。 快速原型设计:专业艺术家可以在详细插图之前快速可视化故事概念和布局。 教育内容:教师和教育工作者可以为课程和演示创建引人入胜的视觉内容。 营销材料:企业可以制作动漫风格的促销漫画或用于活动的分镜脚本。 粉丝艺术和同人志:粉丝可以基于他们最喜欢的动漫和漫画系列创作衍生作品。 优点: 非艺术家也可轻松进行漫画创作。 基于浏览器的全方位解决方案,无需安装额外软件。 快速迭代和原型设计能力。 创作的全部商业权利。 缺点:(未提及)
2025-04-11
图片文字转文档
图片文字转文档可以通过以下方式实现: coze 插件中的 OCR 插件: 插件名称:OCR 插件分类:实用工具 API 参数:Image2text,图片的 url 地址必填 用途:包括文档数字化、数据录入、图像检索、自动翻译、文字提取、自动化流程、历史文献数字化等。例如将纸质文档转换为可编辑的电子文档,自动识别表单、票据等中的信息,通过识别图像中的文字进行搜索和分类,识别文字后进行翻译,从图像中提取有用的文字信息,集成到其他系统中实现自动化处理,保护和传承文化遗产。 插件的使用技巧:暂未提及。 调用指令:暂未提及。 PailidoAI 拍立得(开源代码): 逻辑:用户上传图片后,大模型根据所选场景生成相关的文字描述或解说文本。 核心:包括图片内容识别,大模型需要准确识别图片中的物体、场景、文字等信息;高质量文本生成,根据图片生成的文字不仅需要准确,还需符合专业领域的要求,保证文字的逻辑性、清晰性与可读性。 场景应用: 产品文档生成(电商/零售):企业可以利用该功能将商品的图片(如电器、服饰、化妆品等)上传到系统后,自动生成商品的详细描述、规格和卖点总结,提高电商平台和零售商的商品上架效率,减少人工编写文案的工作量。 社交媒体内容生成(品牌营销):企业可使用图片转文本功能,帮助生成社交媒体平台的营销文案。通过上传产品展示图片或品牌活动图片,模型可自动生成具有吸引力的宣传文案,直接用于社交媒体发布,提高营销效率。 法律文件自动生成(法律行业):法律行业可以使用图片转文本技术,自动提取合同、证据材料等图片中的文本信息,生成法律文件摘要,辅助律师快速进行案件分析。
2025-04-11
cursor 长文档处理长文档
以下是关于 Cursor 长文档处理的相关信息: UI 用户界面: 当 Cursor 仅添加其他文本时,补全将显示为灰色文本。如果建议修改了现有代码,它将在当前行的右侧显示为 diff 弹出窗口。 您可以通过按 Tab 键接受建议,也可以通过按 Esc 键拒绝建议。要逐字部分接受建议,请按 Ctrl/⌘→。要拒绝建议,只需继续输入,或使用 Escape 取消/隐藏建议。 每次击键或光标移动时,Cursor 都会尝试根据您最近的更改提出建议。但是,Cursor 不会始终显示建议;有时,模型预测不会做出任何更改。 Cursor 可以从当前行上方的一行更改为当前行下方的两行。 切换: 要打开或关闭该功能,请将鼠标悬停在应用程序右下角状态栏上的“光标选项卡”图标上。 @Docs: Cursor 附带一组第三方文档,这些文档已爬取、索引并准备好用作上下文。您可以使用@Docs 符号访问它们。 如果要对尚未提供的自定义文档进行爬网和索引,可以通过@Docs>Add new doc 来实现。粘贴所需文档的 URL 后,将显示相应模式。然后 Cursor 将索引并学习文档,您将能够像任何其他文档一样将其用作上下文。 在 Cursor Settings>Features>Docs 下,您可以管理已添加的文档,包括编辑、删除或添加新文档。 @Files: 在 AI 输入框中(如 Cursor Chat 和 Cmd K),可以使用@Files 引用整个文件。如果继续在@后键入,将在策略之后看到文件搜索结果。 为确保引用的文件正确,Cursor 会显示文件路径的预览,这在不同文件夹中有多个同名文件时尤其有用。 在 Cursor 的聊天中,如果文件内容太长,Cursor 会将文件分块为较小的块,并根据与查询的相关性对它们进行重新排序。
2025-04-10
学习路径文档
以下是为您提供的新手学习 AI 的路径文档: 首先,了解 AI 基本概念。建议阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时,浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 然后,开始 AI 学习之旅。在「」中,您将找到一系列为初学者设计的课程,特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有可能获得证书。 接着,选择感兴趣的模块深入学习。AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。特别建议您掌握提示词的技巧,它上手容易且很有用。 之后,进行实践和尝试。理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后也进行分享。 最后,体验 AI 产品。与现有的 AI 产品进行互动是学习 AI 的另一种有效方式。尝试使用如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。通过与这些 AI 产品的对话,您可以获得对 AI 在实际应用中表现的第一手体验,并激发您对 AI 潜力的认识。 此外,雪梅 May 的 AI 学习经验也值得参考。May 发现自己的学习路径是:迈出第一步→大量的学习输入→疯狂的模仿→开始自己创造→学的越来越宽越来越杂→积累的量变产生质变→开始分享。特别是学习 coze 的路径:输入→模仿→自发创造,这是她真实实践下来之后发现的学习规律。May 还提到,虽然费曼学习法告诉我们,学习最好的方式是教会别人,但在一开始学习 AI 时,自学和输入为主也是可行的。回想起来,如果能量更足、更有勇气,可以更早地开始输出倒逼输入。不过不要为难自己,只要迈开脚步,就是进步。
2025-04-09
如何用rpa来实现读取本地excel表格里的内容进行筛选,提取某些数据值后,再自动化填写到飞书的多维表格去。怎么来实现这个功能
要使用 RPA 实现读取本地 Excel 表格内容进行筛选,并将提取的数据值自动化填写到飞书的多维表格,可参考以下步骤: 1. 关于扣子:“”(Coze)是字节跳动在 2024 年上线的新一代一站式 AI Bot 开发平台,也被称为“字节版 GPTs”。它是一个低门槛的 AI 应用开发平台,其核心目标是让没有编程基础的用户也能够轻松参与到 AI 生态的建设中。 2. 登录后,在左侧功能列表的工作空间中,点击右上角“+字段”创建工作流,自行输入名称和描述。 3. 已做好工作流后,逐步拆解每个节点的配置: 开始节点:此节点不需要做任何配置,没有输入以及输出。 读取飞书表格内容节点:点击开始节点后面的“+”,搜索“飞书多维表格”,选择“search_record”功能。添加后,点击该节点的配置,在界面右侧的参数框中,需要填写 app_token、field_names。filter 是对数据的筛选条件,没有筛选需求可直接忽略。其中,app_token 是多维表格的唯一标识符,即表格 URL 中的一段;field_names 则是要读取的具体字段,比如“标题”、“内容”,以作为后续操作的输入。该节点运行后,就能将多维表格中的内容提取出来。
2025-04-09
哪些 ai 可以读取视频内容
以下是一些可以读取视频内容的 AI: 1. 视频内容分析模型:上传视频后可以生成视频内容的文本描述。来源: 2. XiaoHu.AI:支持多场景,从图像识别到视频理解,可解析超过 1 小时视频内容并秒级定位事件。广泛识别常见物体、文档结构化解析(发票、表单等),适用于金融与商业领域。支持不同尺寸图像处理,保留高分辨率;精准物体定位与属性分析。多模态 AI 代理具备手机、电脑执行复杂任务的能力。详细介绍:
2025-03-30
dify 读取飞书文档
以下是关于使用扣子读取飞书文档的详细步骤: 扣子是字节跳动在 2024 年上线的新一代一站式 AI Bot 开发平台,也被称为“字节版 GPTs”。它是一个低门槛的 AI 应用开发平台,其核心目标是让没有编程基础的用户也能够轻松参与到 AI 生态的建设中。 登录后,在左侧功能列表中的工作空间,点击右上角“+字段”创建工作流,名称和描述自行输入。 关于读取飞书表格内容的配置: 1. 点击开始节点后面的“+”,搜索“飞书多维表格”,选择“search_record”功能。 2. 添加后,点击该节点的配置,在界面右侧的参数框中,需要填写 app_token 和 field_names。filter 是对数据的筛选条件,没有筛选需求可直接忽略。 app_token:多维表格的唯一标识符,即表格 URL 中的一段。 field_names:要读取的具体字段,这里需要的是“标题”、“内容”,作为海报的输入。 该节点运行后,就能将多维表格中的内容提取出来。
2025-03-27
剧本分析(NLP):AI 读取剧本,分析情节、角色发展,甚至预测观众反应。
以下是关于剧本分析(NLP)中 AI 读取剧本并进行相关处理的一些信息: 人物剧本与角色状态: 对人物如李洛云进行“剧本推演”,每天生成 20 40 个时间段剧本,依据人物背景和增长记忆体生成。 可使用 LLM 生成英文提示词用于 Stable Diffusion 出图,图存于“手机相册”用于对话多模态中的图片回复。 选择剧本和图片生成朋友圈文案。 拟人行为: 反感度系统:通过 LLM 分析对话判断角色是否产生反感度。 延迟回复:根据状态忙闲或是否睡觉决定回复时间。 接受多轮输入,一并回复:避免每一条输入回复一句,不像真人。 响应拆分与响应延迟:将一大段响应文本拆分成多段,模拟人类打字速度(3 5 字/秒),回复时概率性使用表情包,有概率主动聊天(与亲密度正相关)。 微信朋友圈:根据每天人物剧本挑选 1 2 个发布朋友圈并配图,目前内容由 AI 生成但手工发布。 将小说做成视频的制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)提取关键场景、角色和情节。 2. 生成角色与场景描述:用工具(如 Stable Diffusion 或 Midjourney)生成视觉描述。 3. 图像生成:用 AI 图像生成工具创建图像。 4. 视频脚本制作:将关键点和图像组合成脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)转换语音,添加背景音乐和音效。 6. 视频编辑与合成:用视频编辑软件(如 Clipfly 或 VEED.IO)合成。 7. 后期处理:剪辑、添加特效和转场提高质量。 8. 审阅与调整:观看视频并根据需要调整。 9. 输出与分享:完成编辑后输出并分享。 Inworld AI: Inworld AI 是一家专注于游戏和人工智能的初创公司,开发了 Inworld 的 AI 角色引擎,可将游戏 NPC 进行 AI 化并集成到游戏中。该引擎超越大语言模型,增加可配置的安全性、知识、记忆、叙事控制、多模态等功能,使 NPC 能够自我学习和适应,具有情绪智能。其角色引擎可创建具有独特个性和上下文意识的角色,无缝集成到实时应用中,内置优化规模和性能的功能。Character Brain(性格大脑)引擎使 AI NPC 能够学习和适应,具有情绪智能的关系导航能力、记忆和回忆能力,并能自主发起目标、执行动作并遵循动机。功能包括目标和行动、长期记忆、个性、情绪等。
2025-03-20
哪个AI工具能读取word
以下是一些常见的能够处理 word 相关任务的 AI 工具: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体的 AI 写作助手,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于学生和写作人员的多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助用户在写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,可以帮助用户优化文章的语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可以根据输入生成符合要求的学术论文。 总的来说,这些 AI 工具涵盖了文章处理的各个环节,包括校对、改写、大纲生成、内容生成等,可以有效提高写作效率和质量。科研人员和学生可以根据自身需求选择合适的工具进行使用。但需注意,内容由 AI 大模型生成,请仔细甄别。
2025-03-07
推荐一个能读取视频并总结出视频内容的ai
以下为您推荐能读取视频并总结视频内容的 AI 工具及方法: 1. GPT 系列: 对于 B 站等有字幕的视频,若视频栏下有字幕按钮,可通过安装油猴脚本获取字幕,将字幕复制发送给 GPT 进行总结。 有开发者利用 OpenAI 升级的 API 对足球比赛视频进行全 AI 解说,具体步骤包括提取视频帧(如使用 OpenCV 初始化视频文件读取,遍历视频逐帧处理并编码为 base64 格式)、构建描述提示(创建结构化提示,定义 GPT 请求参数)、发送 GPT 请求。 2. 视频内容分析模型:可在上传视频后生成视频内容的文本描述。 您可以根据实际需求选择使用。
2025-02-24