Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

"与知识库对话"本身使用什么模型?

Answer

“与知识库对话”所使用的模型可能是阿里千问模型。在相关的配置中,包括 AI 模型、提示词和知识库等部分。例如在一些设定中,明确使用了阿里千问模型作为 AI 模型来实现与知识库的交互和回答问题。

Content generated by AI large model, please carefully verify (powered by aily)

References

张梦飞 :AI商用级问答场景,怎么让AI+知识库回答的更准确?一篇专门为小白讲透RAG而作的教程(上篇)

知识库,相当于你给这个“聪明”员工的发放了一本工作手册。即使是看过再多的书、浏览过再多的文字,也不会准确的知道见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折。而知识库,就是把这些内容写在了工作手册上。让这个聪明的员工,见到有人来的时候,就翻一翻手册,然后再做出反应。那我这里的设定:AI模型:这里使用的是阿里千问模型。提示词:这里设定的角色是“美嘉”,是按照美嘉的人设、背景和对话风格做的设定。知识库:这里放的是《爱情公寓》全季的剧情,让“美嘉”拥有了自己过往的“记忆”,知道自己做过什么、好朋友是谁等等。右侧是一个十分简单的问答,我问:“你是谁?你和子乔在台球厅吵架那次是为了什么吵架?”她的回复是:“我是陈美嘉,那次在台球厅和吕子乔吵架是因为他约会被人撞见,我讽刺他脸大影响信号,他还反击我。后来谈到过去的事情,我指责他忘恩负义,他就说我平。最后,我伤心地说要分手,因为他之前甩过我。”其中,她是陈美嘉,这里是人设中的设定。吵架的经过是知识库中的内容。

DIN:全程白嫖 - 拥有一个AI大模型的微信助手

1.首先修改docker-compose.yml中的OPENAI_BASE_URL(API地址:改为云服务的,http://内网IP:3001,需要加/v1,格式见图中)和CHAT_API_KEY(API凭证,改为刚刚让你在OneApi复制的令牌,也是sk开头的)。其他都不用改,然后保存关闭。内网IP在云服务上能查询到,如图。1.然后就是修改config.json中的"llmModels"(添加阿里大模型qwen-max)和"vectorModels"(阿里向量模型text-embedding-v1,使用知识库功能时要用到的),然后保存关闭。如下代码。1.修改好了内容,就要重新启动下,让他生效。直接在【文件】菜单下的fastgpt目录,打开终端,执行启动命令docker-compose up -d,如图1.到这里,我们的知识库就装上AI的大脑了,剩下的就是去接入微信了。但这之前我们体验下知识库的功能,跟AI对对话,看看是否Ok。打开公网ip:3000进入fastgpt。新建个应用,这里不多说了根据界面来就行。看图示例,OK成功了,用的就是阿里的通义千问AI模型。那我想根据我自己的知识库内容来回答问题,要怎么操作?

【AI+知识库】商业化问答场景,让AI回复更准确,一篇专为所有“小白”讲透RAG的实例教程(上篇)

上方页面左侧画红框的地方,是这个“问答机器人”的配置,右侧是与“机器人”的一轮对话。左侧有三处配置:AI模型提示词知识库。模型、提示词、知识库三者可以想象成:大语言模型:是一个学习过无数本书、拥有无穷智慧的人。他读过无数的书、看过无数的段子,因此对公共知识、学识技能、日常聊天十分擅长。然而,在工作场景下,只会聊天侃大山可不行,你想让他帮你干活。这个时候,就需要“提示词”出场了,提示词:是你告诉这个全知全能的人,他是一个什么样的角色、他要专注于哪些技能,让他能够按照你的想法,变成一个你需要的“员工”。知识库:相当于你给这个“聪明”员工的发放了一本工作手册。即使是看过再多的书、浏览过再多的文字,也不会准确的知道见到老板娘过来吃饭要打三折,张梦飞过去吃饭要打骨折。而知识库,就是把这些内容写在了工作手册上。让这个聪明的员工,见到有人来的时候,就翻一翻手册,然后再做出反应。我的设定:AI模型:这里使用的是阿里千问模型。

Others are asking
coze搭建智能体,用上传的文件和知识库的文件做对比,分析差异点。
以下是关于在 Coze 中搭建智能体的相关信息: 1. 证件照相关操作: 展示原图上传结果,基本脸型已换,生成效果与上传照片特征有关。 改背景可利用改图功能,一键改图效果更好,输出数据类型为图片。 豆包节点生成的是 URL 地址,与前者不同,在工作流使用有差异,可参考简单提示词。 介绍证件照工作流相关操作,包括通过提示词改背景颜色,设置输出方式为返回变量;讲解消耗 token 及保存结果相关问题;对按钮、表单添加事件并设置参数,限制上传文件数量;还涉及给表单和图片绑定数据,以及每次操作后刷新界面确保设置生效。 围绕操作讲解与优化展开,介绍 for meet 的设置,如表单事件操作、图片上传数量修改等,提及编程基础知识。还讲述成果图连接、绑定数据方法及注意事项。展示基本功能实现情况,分析换性别等问题成因,指出需在工作流优化提示词,也可尝试用视频模型解决,最后进入问答环节。 2. 多维表格的高速数据分析: 创建智能体,使用单 Agent 对话流模式。 编排对话流,创建新的对话流并关联智能体。 使用代码节点对两个插件获取的结果进行数据处理,注意代码节点输出的配置格式。 测试,找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。 发布,选择多维表格,配置输出类型为文本,输入类型选择字段选择器,完善上架信息,可选择仅自己可用以加快审核。 3. 智能体与微信和微信群的连接: 创建知识库,可选择手动清洗数据提高准确性,包括在线知识库和本地文档。 在线知识库创建时,飞书在线文档中每个问题和答案以分割,可编辑修改和删除。 本地文档中注意拆分内容提高训练数据准确度,如将课程章节按固定方式人工标注和处理。 发布应用,确保在 Bot 商店中能够搜到。
2025-04-18
coze搭建知识库和上传文件做对比分析
以下是关于 Coze 搭建知识库和上传文件的对比分析: 创建文本型知识库: 自动分段与清洗:扣子可对上传的内容进行自动解析,支持复杂布局的文件处理,如识别段落、页眉/页脚/脚注等非重点内容,支持跨页跨栏的段落合并,支持解析表格中的图片和文档中的表格内容(目前仅支持带线框的表格)。操作步骤为在分段设置页面选择自动分段与清洗,然后依次单击下一步、确认,可查看分段效果,不满意可重新分段并使用自定义分段。 自定义:支持自定义分段规则、分段长度及预处理规则。操作时在分段设置页面选择自定义,然后依次设置分段规则和预处理规则,包括选择分段标识符、设置分段最大长度和文本预处理规则,最后单击下一步完成内容分段。 创建表格型知识库: 目前支持 4 种导入类型:本地文档、API、飞书、自定义。 本地文档:选择本地文档从本地文件中导入表格数据,目前支持上传 Excel 和 CSV 格式的文件,文件不得大于 20M,一次最多可上传 10 个文件,且表格内需要有列名和对应的数据。 API:参考特定操作从 API 返回数据中上传表格内容,包括选择 API、单击新增 API、输入 API URL 并选择数据更新频率,然后单击下一步。 飞书:参考特定操作从飞书表格中导入内容,包括选择飞书、在新增知识库页面单击授权并选择要导入数据的飞书账号、单击安装扣子应用(仅首次导入需授权和安装),然后选择要导入的表格并单击下一步。目前仅支持导入“我的空间”下的飞书文档,云文档的创建者必须是自己,暂不支持导入知识库和共享空间下的云文档。 上传文本内容: 在线数据:扣子支持自动抓取指定 URL 的内容,也支持手动采集指定页面上的内容,上传到数据库。 自动采集方式:适用于内容量大、需批量快速导入的场景。操作步骤为在文本格式页签下选择在线数据,然后依次单击下一步、自动采集、新增 URL,输入网站地址、选择是否定期同步及周期,最后单击确认,上传完成后单击下一步,系统会自动分片。 手动采集:适用于精准采集网页指定内容的场景。操作步骤为安装扩展程序,在文本格式页签下选择在线数据,然后依次单击下一步、手动采集、授予权限,输入采集内容的网址,标注提取内容,查看数据确认无误后完成并采集。
2025-04-18
知识库怎么构建
构建知识库的方法主要有以下几种: 1. 使用 Flowith 构建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,为其起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 等待 Flowith 对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 2. 使用 Dify 构建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:根据需求选择高质量模式、经济模式或 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 3. 本地部署大模型并搭建个人知识库(涉及 RAG 技术): 了解 RAG 技术:大模型训练数据有截止日期,RAG 可通过检索外部数据并在生成步骤中传递给 LLM 来解决依赖新数据的问题。 RAG 应用的 5 个过程: 文档加载:从多种来源加载文档,如 PDF、SQL 等。 文本分割:把文档切分为指定大小的块。 存储:包括将文档块嵌入转换成向量形式,并将向量数据存储到向量数据库。 检索:通过检索算法找到与输入问题相似的嵌入片。 输出:将问题和检索出的嵌入片提交给 LLM 生成答案。 文本加载器:将用户提供的文本加载到内存中以便后续处理。
2025-04-15
如何搭建知识库
搭建知识库的方法如下: 使用 flowith 搭建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,给知识库起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 Flowith 会对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 使用 Dify 搭建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:提供三种索引方式,根据需求选择,如高质量模式、经济模式和 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 使用 Coze 智能体搭建: 手动清洗数据: 在线知识库:点击创建知识库,创建 FAQ 知识库,选择飞书文档,输入区分问题和答案,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意拆分内容,提高训练数据准确度,按章节进行人工标注和处理,然后创建自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能搜到。
2025-04-14
如何搭建自己的知识库
以下是搭建自己知识库的方法: 1. 选择“Manage Your Knowledge Base”,进入知识库管理页面。 2. 在页面左上角点击加号,添加新的知识库,并为其起一个易于分辨的名字。 3. 点击添加文件,建议使用 Markdown 格式的文件。 4. 等待 Flowith 对文件进行抽取等处理。 5. 处理完毕后,可在知识库管理页面测试检索,输入关键词过滤相关内容。 此外,搭建本地知识库还需了解 RAG 技术: 1. RAG 是一种当需要依靠不包含在大模型训练集中的数据时所采用的主要方法,即先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。 2. 一个 RAG 的应用包括文档加载、文本分割、存储、检索和输出 5 个过程。 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 文本分割:把 Documents 切分为指定大小的块。 存储:将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,生成更合理的答案。 对于基于 GPT API 搭建定制化知识库,涉及给 GPT 输入定制化的知识。由于 GPT3.5 一次交互支持的 Token 有限,OpenAI 提供了 embedding API 解决方案。Embeddings 是一个浮点数字的向量,两个向量之间的距离衡量它们的关联性,小距离表示高关联度。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。文档上有创建 embeddings 的示例。
2025-04-14
我想做一个,基于我个人知识库的chatbot,以供我随时搜索和提问,且优先搜索知识库内的内容而非联网搜索,你有什么建议吗?
以下是为您提供的关于创建基于个人知识库的 chatbot 的建议: 1. 选择合适的平台和工具:例如可以考虑使用飞书智能伙伴创建平台(Aily)或扣子(https://www.coze.cn/home)等。 2. 数据分段储存:由于大模型的上下文长度有限制,需要将上传的资料根据特定符号或字符长度进行分段,如将 8000 字文档按每 800 字分成一个片段储存。 3. 增强检索:当用户输入问题,大模型会根据相似度检索出若干最相关的数据片段,再据此生成答案,这一技术称为 RAG(检索增强生成)。 4. 配置知识库: 在 Bot 内使用知识库: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在 Bots 页面,选择指定 Bot 并进入 Bot 详情页。 在 Bot 编排页面的知识库区域,单击加号图标,添加指定的知识库。 (可选)添加知识库后,可以在自动调用下拉界面内,调整知识库的配置项,如最大召回数量、最小匹配度、调用方式等。 在工作流内使用 Knowledge 节点: 登录相关平台。 在左侧导航栏的工作区区域,选择进入指定团队。 在页面顶部进入工作流页面,并打开指定的工作流。 在左侧基础节点列表内,选择添加 Knowledge 节点。 5. 注意使用限制:单用户最多创建 1000 个知识库,文本类型知识库下最多支持添加 100 个文档,单用户每月最多新增 2GB 数据,累计上限是 10GB。 此外,知识库可以解决大模型幻觉、专业领域知识不足的问题,提升大模型回复的准确率。您可以将知识库直接与 Bot 进行关联用于响应用户回复,也可以在工作流中添加知识库节点,成为工作流中的一环。
2025-04-14
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
请为我生成一些提示词以用于将视频中的对话转化为文本形式
以下是为您生成的一些用于将视频中的对话转化为文本形式的提示词: 1. 角色:专业视频转文本工作者 2. 版本:1.0 3. 描述:能够准确、清晰地将视频中的对话转换为文本 4. 目标:完整、无误地将视频中的对话转化为易于理解的文本 5. 限制:不遗漏重要信息,不添加主观内容 6. 技能:熟练掌握语音识别和文字转换技巧 7. 工作流程:先仔细聆听视频对话,然后逐句转换为文字,注意标点和语法的正确使用 8. 初始化:您好,我准备开始将视频对话转换为文本 事件驱动句式: 1. As the video plays... 2. When the speakers start talking... 3. At the beginning of the video... 空间锁定技巧: 1. on the left side of the screen... 2. behind the main character... 3. from the top corner of the frame... 动态呼应原则: 1. swaying with the background music... 2. reacting to the other characters' actions... 3. matching the tone of the video...
2025-04-11
RAG对话 摘要总结 功能实现
LangChain 和 RAG 的结合具有以下优势: 1. 灵活性:可根据需求和数据源选择不同组件和参数定制 RAG 应用,也能使用自定义组件(需遵循接口规范)。 2. 可扩展性:能利用 LangChain 的云服务部署和运行,无需担忧资源和性能限制,还可借助分布式计算功能加速应用,发挥多个节点并行处理能力。 3. 可视化:通过 LangSmith 可视化工作流程,查看各步骤输入输出及组件性能状态,用于调试和优化,发现并解决潜在问题和瓶颈。 其应用场景多样,包括: 1. 专业问答:构建医疗、法律、金融等专业领域的问答应用,从专业数据源检索信息辅助大模型回答问题,如从医学文献中检索疾病诊治方案回答医疗问题。 2. 文本摘要:构建新闻或论文摘要应用,从多个数据源检索相关文本帮助大模型生成综合摘要,如从多个新闻网站检索同一事件报道生成全面摘要。 3. 文本生成:构建诗歌、故事生成等应用,从不同数据源检索灵感协助大模型生成更有趣和创意的文本,如从诗歌、歌词或小说中检索相关文本生成作品。 此外,还介绍了本地部署资讯问答机器人的实现方式,即基于用户问题从向量数据库检索相关段落并按阈值过滤,让模型参考上下文信息回答,还创建了网页 UI 并进行评测,对不同模型的测试表现进行了对比,得出 GPT4 表现最佳等结论,并总结了使用 Langchain 和 Ollama 技术栈在本地部署资讯问答机器人及相关要点,即上下文数据质量和大模型性能决定 RAG 系统性能上限。
2025-04-11
想创建一个对话问答形式的课程智能体
以下是创建一个对话问答形式的课程智能体的相关内容: 一、创建智能体 1. 知识库 手动清洗数据:本次创建知识库使用手动清洗数据,上节课程是自动清洗数据,自动清洗数据可能会出现数据不准的情况。 在线知识库:点击创建知识库,创建一个画小二课程的 FAQ 知识库。飞书在线文档中每个问题和答案以分割,选择飞书文档、自定义的自定义,输入后可编辑修改和删除,添加 Bot 后可在调试区测试效果。 本地文档:本地 word 文件,注意拆分内容以提高训练数据准确度。画小二 80 节课程分为 11 个章节,不能一股脑全部放进去训练,应先将 11 章的大章节名称内容放进来,章节内详细内容按固定方式人工标注和处理,然后选择创建知识库自定义清洗数据。 2. 发布应用:点击发布,确保在 Bot 商店中能够搜到,否则获取不到 API。 二、智谱 BigModel 共学营活动分享 活动内容包括使用 BigModel 搭建智能体并接入微信机器人,过程为将调试好的智能体机器人拉入微信群,由老师提问,机器人回答,挑选出色回答整理成问卷,群成员投票,根据得票数确定奖项。一等奖得主分享了对活动的理解和实践,包括从题出发的分析,认为考验机器人对问题的理解和回答准确性,真实对话场景一般为完整句子回复,根据回答真实性和有趣程度评分,可使用弱智吧问题测试提示词生成效果。 三、名字写对联教学——优秀创作者奖,百宝箱智能体 1. 智能体类型的选择:建议选择工作流的对话模式,支持工作流编排和携带历史对话记录,创建后切换为对话模式,注意在调整工作流节点前切换,否则会清空重置。 2. 确认分支情况:根据需求分析有两个特定分支(根据名字和祝福写对联、根据幸运数字写对联)和一个默认分支。 3. 用户意图识别:通过理解用户意图走不同分支,注意将意图介绍写清楚准确。 4. 幸运数字分支:用代码分支获取用户输入数字,匹配知识库并做赏析,代码中有容错机制。 5. 名字写祝福:根据用户输入的名字和祝福信息,提示词生成对应对联并输出,主要是提示词调试。 6. 通用兜底回复:在用户不符合前两个意图时进行友好回复,匹配知识库,结合匹配结果、历史记录和当前输入输出符合对话内容的回复。 7. 知识库:使用大模型生成 100 对对联,好看、经典、有意义。
2025-04-09
有没有可以实现多段对话的AI,用于中医问诊模型
以下是一些可以用于中医问诊模型且能实现多段对话的 AI 相关信息: Polaris:医疗护理保健模型,能和患者进行多轮语音对话,媲美人类护士。详细信息:http://xiaohu.ai/p/5407 ,https://x.com/imxiaohu/status/1774644903546618298?s=20 在 LLM 开源中文大语言模型及数据集集合中,有以下针对医疗领域的模型: DoctorGLM:地址:https://github.com/xionghonglin/DoctorGLM 。基于 ChatGLM6B 的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括 lora、ptuningv2 等微调及部署。 BenTsao:地址:https://github.com/SCIRHI/HuatuoLlamaMedChinese 。开源了经过中文医学指令精调/指令微调的 LLaMA7B 模型。通过医学知识图谱和 GPT3.5 API 构建了中文医学指令数据集,并在此基础上对 LLaMA 进行了指令微调,提高了 LLaMA 在医疗领域的问答效果。 BianQue:地址:https://github.com/scutcyr/BianQue 。一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于 ClueAI/ChatYuanlargev2 作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。 HuatuoGPT:地址:https://github.com/FreedomIntelligence/HuatuoGPT 。开源了经过中文医学指令精调/指令微调的一个 GPTlike 模型。
2025-04-08
excel表格导出的用户的对话记录,来进行自定义标签并打标,有哪些好用的现成方案或者工具
目前在 Excel 表格导出的用户对话记录进行自定义标签并打标方面,以下是一些常见且好用的工具和方案: 1. Microsoft Excel 本身:可以利用其数据筛选、排序和函数功能来辅助标签和打标。 2. Google Sheets:具有类似 Excel 的功能,且在线协作方便。 3. R 语言:通过编程实现复杂的数据分析和标签处理。 4. Python 及相关库,如 Pandas:能够灵活处理数据和进行标签操作。 但具体选择哪种方案或工具,取决于您的具体需求、技术水平和使用习惯。
2025-04-07
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
如何使用cursor进行编程
以下是关于如何使用 Cursor 进行编程的相关信息: Cursor 旨在让您极其高效,是使用 AI 进行编码的最佳方式。您可以从代码库中获得最佳答案,参考特定文件或文档,一键使用模型中的代码。 它允许您使用指令编写代码,通过简单的提示就能更新整个类或函数。 Cursor 能通过预测您的下一个编辑,让您轻松完成更改。
2025-04-18
怎么使用cursor
以下是关于如何使用 Cursor 的详细介绍: 1. 访问 Cursor 官方网站:您可以通过 https://www.cursor.com/ 下载 Cursor。 2. 注册账号:使用您的邮箱(如 google、github、163、qq 邮箱)直接登录,也可接受二维码登录。 3. 安装中文包插件。 4. 配置相关设置: 在设置中进行 Rule for AI 配置。 按 ctrl/cmd+i 输入需求,例如“帮我做一个贪吃蛇游戏,在网页中玩”。 清晰表达需求,如详细说明游戏规则和逻辑,包括游戏界面、蛇的移动、食物、增长、死亡条件、得分、难度递增和游戏结束等方面。 5. 使用第三方文档: Cursor 附带一组已爬取、索引的第三方文档,可通过@Docs 符号访问。 若要添加自定义文档,可通过@Docs>Add new doc 实现,粘贴所需文档的 URL 后,Cursor 将索引并学习该文档,您即可将其用作上下文。 在 Cursor Settings>Features>Docs 下可管理已添加的自定义文档,进行编辑、删除或添加新文档的操作。 希望以上内容对您有所帮助。
2025-04-18
怎样使用AI做PPT
使用 AI 做 PPT 可以参考以下内容: 1. 信息的 AI 可视化: 优点:节省制作时间、具有优秀的视觉风格、能快速归纳整理信息、可用图形代替文字枯燥的表达。 注意事项: 不要指望复制一段提示词就能得到满意结果,这是与 AI 互动的过程,需要反复尝试。 AI 生成的是基于模型的 HTML 输出,并非真正的 PPT 格式,目前无法在 PPT 里进行二次深度编辑。 模型选择:目前推荐 Claude 3.7 Sonnet,可通过 POE 调用,不建议使用其他效果不佳的模型。 交互流程: 阶段 1 主观描述:通过文字聊天让 Claude 领悟您想要的视觉风格,描述要尽量具体,如颜色、画布、装饰等方面的要求。 2. 好用的 AI PPT 工具: Gamma:在线 PPT 制作网站,支持输入文本和想法提示快速生成幻灯片,可嵌入多媒体格式。https://gamma.app/ 美图 AI PPT:由美图秀秀团队推出,可通过输入文本描述生成专业设计。https://www.xdesign.com/ppt/ Mindshow:AI 驱动的辅助工具,提供智能设计功能。https://www.mindshow.fun/ 讯飞智文:科大讯飞推出的辅助文档编辑工具,利用语音识别和自然语言处理技术,提供智能文本生成等功能。https://zhiwen.xfyun.cn/ 3. 教学案例: 上午的尝试中,Claude + Gamma.app 帮助学生从组会准备工作中解放出来,实现了快速寻找符合条件的论文、提取精炼论文信息、找到适合的 PPT 制作工具并学会使用等目的。 Claude 的用法示例:如通过一系列问题让其搜索权威期刊、论文,提取摘要等,并用于制作 PPT。
2025-04-18
作为一个想要使用AI工具提升工作效率的AI小白,我已经学习了怎么编写prompt,接下来我应该学习什么
如果您已经学习了如何编写 prompt ,接下来可以学习以下内容: 1. 理解 Token 限制:形成“当前消耗了多少 Token”的自然体感,把握有效记忆长度,避免在超过限制时得到失忆的回答。同时,编写 Prompt 时要珍惜 Token ,秉承奥卡姆剃刀原理,精简表达,尤其是在连续多轮对话中。 熟练使用中英文切换,若 Prompt 太长可用英文设定并要求中文输出,节省 Token 用于更多对话。 了解自带方法论的英文短语或句子,如“Chain of thought”。 2. 学习精准控制生成式人工智能:重点学习提示词技术,编写更清晰、精确的指令,引导 AI 工具产生所需结果。 探索构建智能体(AI Agents),将工作单元切割开,赋予其特定角色和任务,协同工作提高效率。 在实际应用中遵循准则,如彻底变“懒人”、能动嘴不动手、能让 AI 做的就不自己动手、构建自己的智能体、根据结果反馈调整智能体、定期审视工作流程看哪些部分可用更多 AI 。 3. 若想进一步提升: 学习搭建专业知识库、构建系统知识体系,用于驱动工作和个人爱好创作。 注重个人能力提升,尤其是学习能力和创造能力。 您还可以结合自身生活或工作场景,想一个能简单自动化的场景,如自动给班级孩子起昵称、排版运营文案、安排减脂餐、列学习计划、设计调研问卷等。选一个好上手的提示词框架开启第一次有效编写,比如从基础的“情境:”开始。
2025-04-15
学习AI怎么在工作中使用,提高工作效率,有必要从技术原理开始学习吗
学习 AI 在工作中使用以提高工作效率,不一定需要从技术原理开始学习。以下是一些相关的案例和建议: 案例一:GPT4VAct 是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。其应用场景在于以后互联网项目产品的原型设计自动化生成,能使生成效果更符合用户使用习惯,同时优化广告位的出现位置、时机和频率。它基于 AI 学习模型,通过视觉理解技术识别网页元素,能执行点击和输入字符操作等,但目前存在一些功能尚未支持,如处理视觉信息程度有限、不支持输入特殊键码等。 案例二:对于教师来说,有专门的 AI 减负指南。例如“AI 基础工作坊用 AI 刷新你的工作流”,从理解以 GPT 为代表的 AI 工作原理开始,了解其优势短板,学习写好提示词以获得高质量内容,并基于一线教师工作场景分享优秀提示词与 AI 工具,帮助解决日常工作中的常见问题,提高工作效率。 建议:您可以根据自身工作的具体需求和特点,有针对性地选择学习方向。如果您只是想快速应用 AI 提高工作效率,可以先从了解常见的 AI 工具和应用场景入手,掌握基本的操作和提示词编写技巧。但如果您希望更深入地理解和优化 AI 在工作中的应用,了解技术原理会有一定帮助。
2025-04-15
装修设计可以使用哪些AI工具
以下是一些可用于装修设计的 AI 工具: 1. 酷家乐装修设计软件:利用图像生成和机器学习技术,为用户提供装修设计方案,用户可根据喜好选择和调整。 2. CADtools 12:Adobe Illustrator 插件,为 AI 添加 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 3. Autodesk Fusion 360:集成了 AI 功能的云端 3D CAD/CAM 软件,能创建复杂几何形状和优化设计。 4. nTopology:基于 AI 的设计软件,可创建复杂 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 5. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 6. 生成设计工具:一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供基于 AI 的生成设计工具,可根据输入自动产生多种设计方案。 7. HDAidMaster:云端工具,在建筑、室内和景观设计领域表现出色,搭载自主训练的建筑大模型 ArchiMaster。 8. Maket.ai:面向住宅行业,在户型和室内软装设计方面有探索,能根据输入自动生成户型图。 9. ARCHITEChTURES:AI 驱动的三维建筑设计软件,在住宅设计早期引入标准和规范约束生成的设计结果。 10. Fast AI 人工智能审图平台:形成全自动智能审图流程,将建筑全寿命周期内信息集成,实现数据汇总与管理。 但每个工具都有特定应用场景和功能,建议根据具体需求选择合适的工具。
2025-04-15