Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

deepseek支持function calling吗

Answer

DeepSeek API 支持 Function Calling 功能。这项功能允许模型调用外部工具以增强其能力。例如,可以使用 Function Calling 获取用户所在地点的当前天气信息。具体的 API 格式可以在 DeepSeek API 的 Chat Completion 文档中找到示例和详细信息 。

此外,DeepSeek API 最近更新了,其中包括了对 Function Calling 的支持。更新的接口 /chat/completions 现在支持 JSON 输出、Function Calling、对话前缀续写(Beta)、8K 最长输出(Beta),并且新增了 /completions 接口,其中包括 FIM 补全(Beta)。所有这些新功能都可以使用 deepseek-chatdeepseek-coder 模型调用 。

Content generated by AI large model, please carefully verify (powered by aily)

References

生成式人工智能领域的 4 个突破点

随着时间的推移,我们已经看到公司不断改善LLMs使用工具的能力。像必应和谷歌这样的老牌公司和Perplexity和You.com这样的初创公司推出了搜索API。AI21 Labs推出了Jurassic-X,它通过将模型与一组预定工具(包括计算器、天气API、维基百科API和数据库)结合起来,解决了独立LLMs的许多缺陷。OpenAI推出了ChatGPT的插件测试版,允许ChatGPT与Expedia、OpenTable、Wolfram、Instacart、Speak、网络浏览器和代码解释器等工具进行交互,这一突破被认为类似于苹果的“应用商店”时刻。最近,OpenAI在GPT-3.5和GPT-4中引入了函数调用,允许开发者将GPT的能力与任何外部工具进行链接。

ChatGPT 助力数据分析:实际案例与技巧

可以发现为了让ChatGPT返回符合要求的JSON格式,prompt的定制就尤为重要和复杂。好消息是,在当地时间6月13日,OpenAI发布函数调用及其他API更新。现在开发人员可以向gpt-4-0613和gpt-3.5-turbo-0613描述函数,并让模型智能地选择输出一个包含调用这些函数所需参数的JSON对象。这是一种更可靠地将GPT的能力与外部工具和API连接起来的新方法。传送门:[Function calling and other API updates](https://openai.com/blog/function-calling-and-other-api-updates)官网有很详细的例子,这里就不再描述代码了。我用本文案例总结大致流程:有个好处是不需要让ChatGPT生成SQL了,减少SQL注入的风险。本地写一个函数执行this.app.mysql.select(table,condition),根据GPT返回的函数名、参数(字段和where)来查询数据,更为安全。但这个方法又有局限性,事先定义函数查询不如SQL查询来的灵活,所以这里也可以让函数改为SQL查询this.app.mysql.query(sql),GPT的函数调用改为:getSqlQuery(sql:string),函数名getSqlQuery,参数:sql,更为灵活。总结:让GPT与函数调用结合,本地控制返回JSON格式,prompt的定制更为简单,AI的输出更为可控。根据实际业务需求采用函数查询或SQL查询,值得一试!

Others are asking
function calling是什么
Function Calling 是一种在自然语言处理和人工智能模型中的技术和概念。 在金融业务场景中,例如搜索欧元兑美元的当前汇率,使用前需要做好配置,如使用 Gemini 1.5 Flash 模型。 对于 ChatGPT 而言,为了让其返回符合要求的 JSON 格式,prompt 的定制尤为重要和复杂。OpenAI 发布函数调用及其他 API 更新后,开发人员可以向 gpt40613 和 gpt3.5turbo0613 描述函数,并让模型智能地选择输出一个包含调用这些函数所需参数的 JSON 对象,这是将 GPT 的能力与外部工具和 API 连接起来的新方法。例如,本地写函数执行 this.app.mysql.select,使操作更灵活。 对于 OpenAI 的 GPT 模型,Chat completions API 允许在请求中传递一系列函数描述,模型能据此生成函数参数并以 JSON 格式返回,可用于执行函数调用,函数调用的结果还能在后续请求中反馈给模型形成交互循环。想深入了解可查看 GPT 入门指南里的函数调用部分和 OpenAI Cookbook 里的用例。 需要注意的是,模型生成的代码不一定都正确和安全,运行代码前要确保环境安全,最好在沙盒里。
2025-03-26
实现一个简单的 function calling agents ,要求小白可以看懂
以下是一个关于实现简单的 function calling agents 的指导,以便小白能够理解: 实现原理: 提示词工程主要由提示词注入和工具结果回传两部分代码组成。提示词注入用于将工具信息及使用工具的提示词添加到系统提示中,它包含 TOOL_EAXMPLE、tools_instructions 和 REUTRN_FORMAT 三个部分。TOOL_EAXMPLE 用于提示 LLM 如何理解和使用工具,编写时应注意用无关紧要的工具作示例避免混淆。tools_instructions 是将通用工具字典转换成 LLM 可读的工具列表,实际使用时可动态调整。REUTRN_FORMAT 定义了调用 API 的格式。工具结果回传阶段利用正则表达式抓取输出中的“tool”和“parameters”参数,对于 interpreter 工具使用另一种正则表达式提取 LLM 输出的代码,通过识别 LLM 返回的调用工具的字典提取对应值传入工具函数,将工具返回结果以 observation 角色返回给 LLM,对于不接受相关角色的 LLM 接口可改为回传给 user 角色。 实现方式的比较与建议: 1. JSON Output:通过 Prompt 方式让模型输出 JSON 格式内容,但 Prompt 麻烦,输出不稳定,串业务成本高。 2. JSON Mode:官方 JSON Output,与 Tools 适用场景不同,JSON mode 为输出 JSON 存在,Tools 为 Call API 存在。 3. 从可控角度推荐 Function Calling 和 Tools 实现: 放弃 JSON mode,模型输出 JSON 仍可能出错,模型厂家对 Function Calling 有微调优化。 降低 System prompt 依赖,能在 Tools 里写的尽量写在里面。 API Response 增强 Prompt,准确率高。 尽量让模型做选择而非填空,减少 token 输出,提高速度和准确率。 利用 Tools 做 Route,构建 Multi Agent,术业有专攻。 此外,在初级菜鸟学习 Langchain 做简单 RAG 方面: 1. 没有用 Langchain 做 table 和 text 的 RAG: Table 表格:包括读入表格 markdown 格式嵌入 template 和直接使用 function call 两种方法。 Text 文字:包括文字相似度检索过程,涉及读入文字、清洗、切分、向量化、计算相似度等步骤。 2. 用 Langchain 做 table 和 text 的 RAG:包括运用 Agent 和 Chain 等方式。 3. 使用 Agent 把文本多种文档组合起来。 相关代码和示例可参考相应的链接。
2025-03-11
function calling 这是什么?
Function Calling 是一种在自然语言处理和人工智能模型中的技术。 在金融业务场景中,例如搜索欧元兑美元的当前汇率,使用前需要做好配置,如使用 Gemini 1.5 Flash 模型。 对于 ChatGPT 而言,为了让其返回符合要求的 JSON 格式,prompt 的定制尤为重要和复杂。OpenAI 发布函数调用及其他 API 更新后,开发人员可以向 gpt40613 和 gpt3.5turbo0613 描述函数,并让模型智能地选择输出一个包含调用这些函数所需参数的 JSON 对象,这是将 GPT 的能力与外部工具和 API 连接起来的新方法。例如,本地写函数执行 this.app.mysql.select。 对于 OpenAI 的 GPT 模型,Chat completions API 允许在请求中传递一系列函数描述,使模型能够根据提供的模式生成函数参数,API 以 JSON 格式返回生成的函数参数,可用于执行函数调用,函数调用的输出还可在后续请求中反馈给模型形成交互循环。想深入了解可查看 GPT 入门指南里的函数调用部分和 OpenAI Cookbook 里的用例。 需要注意的是,模型生成的代码不一定都是正确和安全的,在运行代码前要确保环境安全,最好在沙盒中进行。
2025-03-06
function calling的资料
以下是关于 Function Calling 的相关资料: 函数调用为 AI 系统带来了诸多优势,包括简化用户体验、减少错误发生可能性以及为更高级的自动化开辟道路。例如在处理金融信息时,它能使整个过程更加流畅、准确,并能实现如酒店预订或制定旅行计划等复杂操作。 OpenAI 的 Chat completions API 允许在请求中附带一系列函数描述,使模型能够根据提供的模式生成函数参数,API 会以 JSON 格式返回生成的参数,可用于执行函数调用,函数调用的结果还能在后续请求中反馈给模型形成交互循环。想深入了解可查看 GPT 入门指南里的函数调用部分和 OpenAI Cookbook 里的用例。 对于让 ChatGPT 返回符合要求的 JSON 格式,prompt 的定制至关重要且较为复杂。OpenAI 发布函数调用及其他 API 更新后,开发人员可向 gpt40613 和 gpt3.5turbo0613 描述函数,让模型智能选择输出包含调用函数所需参数的 JSON 对象,这是将 GPT 能力与外部工具和 API 连接的新方法。将 GPT 与函数调用结合,本地控制返回 JSON 格式,能使 prompt 的定制更简单,AI 的输出更可控,可根据实际业务需求选择函数查询或 SQL 查询。
2025-02-21
deepseek支持function calling,在dify的agent的prompt里要如何写才能调用工具。我说的是如何写提示词,才能让deepseek通过Function Calling调用工具。
要在 Dify 的 agent 的 prompt 里让 DeepSeek 通过 Function Calling 调用工具,您可以参考以下内容: 1. 提示词工程主要由提示词注入和工具结果回传两部分代码组成。 提示词注入:将工具信息及使用工具的提示词添加到系统提示中。INSTRUCTION 包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。TOOL_EAXMPLE 用于提示 LLM 如何理解和使用工具,编写时注意用无关紧要的工具作示例避免混淆。tools_instructions 是将通用工具字典转换成 LLM 可读的工具列表,可动态调整。REUTRN_FORMAT 定义调用 API 的格式。 工具结果回传:利用正则表达式抓取输出中的“tool”和“parameters”参数。对于 interpreter 工具,使用另一种正则表达式提取 LLM 输出的代码。通过识别 LLM 返回的调用工具的字典,提取对应值传入工具函数,将结果以 observation 角色返回给 LLM,对于不接受该角色的 LLM 接口,可改为回传给 user 角色。 2. 当模型判断需要调用工具函数时,检测到返回的 json 里 function_call 字段不为空,则执行异步函数调用,采用回调方式获取函数返回结果。通过判断返回的 functionCall 的名称执行不同函数并返回结果。 3. 在大模型请求中,最大的两个变量是 Messages 和 Tools。Messages 里放 sys prompt、memory、user query;Tools 里放能力的 Json Scheme,两者组合形成整个完全的 Prompt。Agent 应用开发的本质是动态 Prompt 拼接,通过工程化手段将业务需求转述成新的 prompt。短期记忆在 messages 里的历史 QA 对,长期记忆是 summary 之后的文本再塞回 system prompt。RAG 是向量相似性检索,可放在 system prompt 里或通过 tools 触发检索。Action 是触发 tool_calls 标记进入请求循环,拿模型生成的请求参数进行 API request,再把结果返回给大模型交互,没有 tool_calls 标记则循环结束。Multi Agents 是更换 system prompt 和 tools。
2024-10-24
deepseek支持function calling,在dify的agent的prompt里要如何写才能调用工具
在 Dify 的 agent 的 prompt 中实现调用工具的方法如下: 1. 提示词注入阶段: INSTRUCTION 为注入到系统提示中的字符串,包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。 TOOL_EAXMPLE 用于提示 LLM 如何理解和使用工具,编写时应使用无关紧要的工具作为示例,避免 LLM 混淆。 tools_instructions 是将通用的工具字典转换成 LLM 可读的工具列表,实际使用时可动态调整。 REUTRN_FORMAT 定义了调用 API 的格式。 2. 工具结果回传阶段: 利用正则表达式抓取输出中的“tool”和“parameters”参数。 对于 interpreter 工具,使用另一种正则表达式提取 LLM 输出的代码,提高使用成功率。 通过识别 LLM 返回的调用工具的字典,提取对应的值,传入相应的工具函数,将工具返回的结果以 observation 的角色返回给 LLM。对于不接受该角色的 LLM 接口,可改为回传给 user 角色。 此外,当模型判断需要调用工具函数时,即检测到返回的 json 里面 function_call 字段不为空,则执行异步函数调用,可通过判断返回的 functionCall 的名称来执行不同的函数并返回结果。 在提升可控性方面,有以下建议: 1. 放弃 JSON mode,虽然模型能力提升能输出 JSON,但仍会出错,且不能保证 100%正确,而模型厂家对 Function Calling 有微调优化。 2. 降低 System prompt 依赖,化繁为简,能在 Tools 里写的东西尽量写在里面。 3. API Response 增强 Prompt,这一步的准确率很高,可增加给大模型的约束和提示。 4. 尽量让模型做选择,而不是填空,减少 token 输出,提高速度和准确率。 5. 利用 Tools 来做 Route,构建 Multi Agent,术业有专攻。
2024-10-24
deepseek官方教程
以下是关于 DeepSeek 的官方教程相关信息: 火山方舟 DeepSeek 申请免费额度教程,包含多种 API 使用方式,如飞书多维表格调用、Coze 智能体调用、浏览器插件调用。可以使用邀请码 D3H5G9QA,通过邀请链接 https://www.volcengine.com/activity/deepseek?utm_term=202502dsinvite&ac=DSASUQY5&rc=D3H5G9QA 邀请可拿 3000 万 tokens,畅享 671B DeepSeek R1,活动截止至北京时间 20250218 23:59:59。同时,火山方舟大模型服务平台的模型服务计费文档有更新,DeepSeekR1、V3 模型分别提供了 50 万免费额度和 API 半价活动。 有关于一线教师的 AI 需求与高效工具推荐,如让模型创作诗歌、生成宣传标语、提示库(https://apidocs.deepseek.com/zhcn/promptlibrary)、代码解释、内容分类、角色扮演(自定义人设)、散文写作、文案大纲生成、模型提示词生成等。 2 月 14 日的社区动态中,有《突破 DeepSeek R1 能力天花板,火山引擎扣子+飞书一站式企业解决方案》《羊毛快薅|字节火山上线了 DeepSeek 系列模型并悄悄更改了模型服务价格...》等内容,还附上了飞书多维表格、Coze 的接入使用方法等。此外,还有关于 DeepSeek 关键 9 篇论文及创新点的讲解,以及 DeepSeek 官方发布的 R1 模型推荐设置。
2025-04-15
coze搭建工作流调用deepseek如何把模型的输出存入到多维表中
以下是将模型的输出存入到多维表中的步骤: 1. 逐步搭建 AI 智能体: 搭建整理入库工作流。 设置大模型节点提取稍后读元数据,使用 MiniMax 6.5s 245k,设置最大回复长度至 50000,以确保能完整解析长内容网页。 进行日期转时间戳,后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳,需要使用「日期转时间戳time_stamp_13」插件进行格式转化。 把稍后读元数据转换为飞书多维表格插件可用的格式,飞书多维表格插件目前(2024 年 08 月)只支持带有转义符的 string,以 Array<Object>格式输入,所以必须将之前得到的元数据数组进行格式转换。 添加「飞书多维表格add_records」插件,只需要设置{{app_token}}与{{records}}参数,将元数据写入飞书表格。 2. 搭建 Coze 工作流: 打开 Coze 的主页,登录后,在【工作空间】创建一个智能体。 在编排页面,给智能体编辑好人设,可先写一个简单的,然后点右上角自动优化,系统会自动补全更精细的描述。点击工作流的+,创建一个工作流。 大模型节点把 input 给到 DeepSeek,让 DeepSeek 按照提前规定的输出框架生成对应文案。 生图节点将输出给到图像生成组件画图。 结束输出时,两个输出给到最终的 end 作为最终的输出。注意在编写系统提示词时,如果需要 input 可被 DeepSeek 调用,需要用{{input}}作为参数引入,不然大模型不知道自己需要生成和这个 input 相关的结果。编排完,点击【试运行】,调试至满意后点击发布。
2025-04-14
deepseek写论文
以下是关于 DeepSeek 在不同方面应用的相关信息: 应用场景:包括脑爆活动方案、会议纪要、批量处理客户评论、分析总结复盘内容、生成专业软件使用过程、写小说框架、写论文、写文案、写小红书笔记、写周报、做设计头脑风暴、做网站、分析感情问题等。 优势与不足:在写文方面全面领先,但长文可能太发散、文风用力过猛导致审美疲劳,且模型多样性不够,相同 prompt 提问多次答案雷同。 应对策略:写理性文章时,可先与 DeepSeek 讨论思路,再用 Cloud 3.5 批量生成;用 O1 模型对创作的字数控制有一定效果,也可通过多轮对话让 AI 增删改查来调整字数。 创作相关:模仿特定小说家的文学方式创作小说,需在提示词中描述文风特征;邀请大家在腾讯频道发布用 AI 写的小说并鉴赏。 发展历程:DeepSeek 历时 647 天在大语言模型(LLM)领域取得突破,发布 13 篇论文。谷歌 CEO 坦言 Deep Seek 的突破标志着 AI 的全球化进程。
2025-04-13
如何使用deepseek写论文?
使用 DeepSeek 写论文可以参考以下几点: 1. 给予 DeepSeek 更多自由发挥的空间,避免过度限制。 2. 注意旧模型在文学创作中可能存在的过度道德说教和正面描述趋势,导致结果生硬死板的问题。 3. 了解 DeepSeek 在文风、哲学思考和触动人情感方面的优秀表现,利用其文创能力为论文增添特色。 4. 参考提示词编写的方法,例如收集信息、重新定义问题等,以更有效地向 DeepSeek 传达需求。 5. 可以借鉴他人使用 DeepSeek 写论文的经验,如 Yvonne 的成功案例。 需要注意的是,虽然 DeepSeek 能提供帮助,但仍需您对生成的内容进行审核和修改,以确保论文的质量和准确性。
2025-04-13
deepseek v3微调
以下是关于 Deepseek V3 微调的相关信息: 云舒文章总结卡 2.0 提示词全面支持 Deepseek V3,效果媲美 Claude3.7。V3 需要为 0324 更新的版本,DS 官网及 API 已更新,如调用其它平台 API 需要查看 DS 版本号。提示词复制链接:。横版为 1080 x 800 卡片提示词,竖版为 750 x 不限高卡片提示词。 各平台均需下载 html 文件,打开后才能查看真实效果,平台自带预览因兼容性问题无法正常展示效果。Claude 使用平台包括 Claude3.7 官网、API、Cursor,使用时需要下载为 HTML 文件打开查看效果。Deepseek 使用平台包括 Deepseek 官网、API(V3 需要为 0324 更新的版本),Deepseek 需要复制代码到 html 文件里,然后保存进行查看。 关于智能纪要,会带着大家复现模型的蒸馏和微调,并讲解相关知识。用 Deepseek RE Zero 蒸馏出带思考的数据,基于 Deepseek V3 微调,进行冷启动,再做强化学习,还从非公布模型提取微调数据,加上人类偏好,最终形成 R1。Deepseek R1 反过来蒸馏数据微调 V3,形成互相帮助的局面。 北京时间 00:30 至 08:30 期间,DeepSeek API 价格大幅下调,DeepSeekV3 降至原价的 50%。
2025-04-12
deepseek的使用技巧
以下是关于 DeepSeek 的使用技巧: 1. 了解其特点与优势: 推理型大模型:核心是推理型,无需用户提供详细步骤指令,通过理解真实需求和场景提供答案。 更懂人话:能理解用户用“人话”表达的需求,无需特定提示词模板。 深度思考:回答问题时能深度思考,非简单罗列信息。 文风转换器:可模仿不同作家文风写作,适用于多种文体和场景。 2. 更多提示词技巧请查看 3. 在 AI 切磋大会第十期 2 月 23 日 deepseek 专场中,分享了以下使用方法技巧: 分享使用 DeepSeek 在工作生活上的案例。 分享 DeepSeek 输出“超预期结果”的惊艳场景。 分享别人使用的案例。 方法论碰撞,如使用 DeepSeek 的技巧、与其他工具的协同方案、模型微调/部署的技巧方法、获取流量/客户等。 在 Workshop 自由探讨环节,参与者可自由组队,确定围绕 DeepSeek 应用的项目方向,进行头脑风暴和制定落地方案,并提交项目初稿。推荐使用 DeepSeek + 飞书多维表格、DeepSeek + 扣子等工具。若讨论无方向,可设定标准问题引导;分组混乱,可预设热门主题让参与者自行加入。
2025-04-12
function call
Function Calling 是一种将 AI 模型(如 ChatGPT、谷歌 Gemini 等)的能力与外部工具和 API 连接起来的方法。 在 ChatGPT 中: 为让 ChatGPT 返回符合要求的 JSON 格式,prompt 的定制重要且复杂。 OpenAI 发布函数调用及其他 API 更新后,开发人员可向 gpt40613 和 gpt3.5turbo0613 描述函数,让模型智能输出包含调用函数所需参数的 JSON 对象。 本地写函数执行查询操作,如 this.app.mysql.select,函数名 getSqlQuery,参数:sql,更灵活。 在谷歌 Gemini 中: 讲解了 Function Calling 是什么及具体用法。 以从事金融业务为例,如搜索欧元兑美元的当前汇率,使用前需做好配置,可使用 Gemini 1.5 Flash 模型。 函数调用带来了多个优势,包括简化用户体验、减少错误发生可能性、为更高级自动化开辟道路,能处理如酒店预订或制定旅行计划等复杂操作,重新定义了人与技术的互动方式。
2025-03-31
如何实现function call
实现 Function Call 主要有以下几种方式和要点: 1. 方式: Json Output:通过 Prompt 让模型输出 JSON 格式内容,但 Prompt 麻烦,输出不稳定,串业务成本高。 Json Mode:官方 Json Output,与 Tools 适用场景不同,JSON mode 为输出 JSON 存在,Tools 为 Call API 存在。 Function Calling 和 Tools:从可控角度推荐使用。 2. 要点: 放弃 JSON mode:模型输出 JSON 仍可能出错,模型厂家对 Function Calling 有微调优化。 降低 System prompt 依赖,化繁为简:System prompt 内容多,不能保证模型遵循,能在 Tools 里写的尽量写在里面。 API Response 增强 Prompt:Tools 调用结果返回给模型时,可增加约束和提示,准确率高。 尽量让模型做选择,而不是填空:将确定答案做成选项,如用 Enum 方式,减少 token 输出,提高速度和准确率。 利用 Tools 来做 Route,构建 Multi Agent:一个不行就增加数量,术业有专攻。 此外,OpenAI 发布函数调用及其他 API 更新,开发人员可向 gpt40613 和 gpt3.5turbo0613 描述函数,让模型智能输出包含调用函数所需参数的 JSON 对象,这是连接 GPT 能力与外部工具和 API 的新方法。例如在本地写函数执行查询,根据 GPT 返回的函数名和参数来操作,也可将函数改为更灵活的 SQL 查询。在实际业务中,可根据需求选择函数查询或 SQL 查询。另外,LangChain 内置的 openapifunction call 也可用于相关开发,实际业务中可能需结合内置业务流程,如判断用户问题是否相关、引导式提问等。
2025-03-19
目前有哪些AI可以支持对用户上传的视频进行理解分析?
目前以下 AI 可以支持对用户上传的视频进行理解分析: 1. Gemini 2.0 Flash Thinking:是解析视频的不错选择,可在 AIStudio(访问 aistudio.google.com,需海外 IP)上传视频进行解析。 2. MiniMax 视频模型:能准确识别用户上传的图片,生成的视频在形象保持、光影色调、指令响应、表情呈现等方面表现出色,还支持 2000 字提示词以更精准调控。 3. 百炼大模型平台:应用广场里的影视传媒视频理解能力可对视频进行语音转写、视觉语言分析等处理并总结成文,有清晰使用步骤,还能根据偏好调试提示词。
2025-04-09
哪些AI可以支持对镜头的视觉理解
以下 AI 可以支持对镜头的视觉理解: 1. 通义千问的 Qwen2.5VL 模型:具有以下优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 2. OpenAI 的 GPT4:在 12 月发布的更新中正式上架了“视频理解”功能,可以和用户就便签内容进行讨论。 3. 基于豆包视觉理解模型实现的具有视频通话功能的应用:能够对摄像头传输的实时画面进行分析,精准理解画面中的关键信息,包括图表论文人物表情、动作细节、场景环境等。同时支持高清流畅的视频通话,实现和大模型面对面的即时交流体验。
2025-04-09
有哪些支持超长上下文的大模型
以下是一些支持超长上下文的大模型: Scout:支持 1000 万上下文,适合处理超长文本和复杂推理任务。 Maverick:具有 100 万上下文,长记忆优势适配多场景替代 RAG。 Behemoth:2 万亿参数级别的大模型在训,已超越 GPT4.5 在 STEM 表现。 Claude2100k 模型的上下文上限是 100k Tokens,即 100000 个 token。 ChatGPT16k 模型的上下文上限是 16k Tokens,即 16000 个 token。 ChatGPT432k 模型的上下文上限是 32k Tokens,即 32000 个 token。 需要注意的是,token 限制同时对一次性输入和一次对话的总体上下文长度生效。例如,一次性输入不能超过规定的 token 数量,而且随着对话的进行,当达到上限时,会遗忘最前面的对话内容。
2025-04-08
生成设计图:包括图书馆静音舱+小组讨论舱 :用隔音板材划分独立空间,舱体外壳由学生绘制抽象艺术图案。 可变形桌椅 :定制模块化桌椅,支持拼合为“创作大桌”或独立卡座,适配小组作业与个人学习。 艺术疗愈角 :设置减压涂鸦墙、小型绿植温室,配备舒缓音乐耳机。
以下是为您提供的关于生成您所需设计图的相关信息: 星流一站式 AI 设计工具具有入门模式和高级模式。 入门模式: 可以使用图像控制功能精准控制生成图像的内容和风格,如空间关系、线稿、人物长相、姿势等。 只能使用以下四种参考功能: 全部图片参考功能,包括原图、景深、线稿轮廓、姿势、Lineart 线稿、Scribble 线稿、光影、Segmant 构图分割等。 原图、SoftEdge 线稿、配色参考、配色打乱、法线贴图、MLSD 线稿等。 高级模式: 点击生成器下方的切换按钮进行切换。 与入门模式相比增加了高级模式框架。 基础模型方面,允许使用更多的微调大模型,如基础模型 F.1、基础模型 XL、基础模型 1.5。 图片参考方面,允许使用更多的图像控制功能,在星流基础大模型下,增加了 tile 分块与 softedge 线稿。 高清分辨率修复:利用算法对初步生成的图像进行简单的图生图高清放大(目前仅支持基础模型 xl 和 1.5 模型)。 放大算法会影响图像放大后的图像质量,建议默认即可。 重绘幅度与初步生成的图像的相似度有关。 其他参数默认即可,参数方面允许调整更多的高级参数。 采样器方面,采样方法决定了模型在生成图像过程中的出图质量,有些采样器在细节处理上表现更佳比如 DPM++2M,而有些则在生成速度上更快,比如 Euler。 采样步数一般来说,步数越多,模型对图像的生成和优化越充分,但同时也会增加生成时间。 随机种子是文生图的随机数种子,通过设置相同的随机数种子,可以确保在相同的参数配置下生成相同的图像。 CFG Scale 控制生成图像与提示词一致性的重要参数。 具有脸部/手部修复功能,利用算法对人像的脸部或者手部进行修复。 此外,学生使用项目化的方式分析现状,做问卷调查,数据分析,在 ChatGPT 的帮助下设计出优化过的设计图,然后使用 3D 的空间设计软件设计出来 3D 的设计图。比如有孩子为优化老师家访路线提出做一个软件产品的案例。
2025-03-23
支持Mac的AI助手,能支持自定义大模型和智能体
以下是为您提供的支持 Mac 且能支持自定义大模型和智能体的 AI 助手相关信息: 在网站上增加一个 AI 助手: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以输入一些 Prompt 来设置人设。 在页面右侧提问验证模型效果,点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中查看所有百炼应用 ID 并保存到本地。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面,创建新 APIKEY 并保存到本地。 本地部署资讯问答机器人:Langchain + Ollama + RSSHub 实现 RAG: 1. Ollama 支持多种大型语言模型,包括通义千问、Llama 2、Mistral 和 Gemma 等,适用于 macOS、Windows 和 Linux 系统,同时支持 cpu 和 gpu。 2. 它提供了模型库,用户可从中下载不同模型,也支持自定义模型,例如修改模型的温度参数或设置特定系统消息,还提供了 REST API 用于运行和管理模型以及与其他应用程序的集成选项。 3. Ollama 社区贡献丰富,有多种集成插件和界面。安装时访问 https://ollama.com/download/ ,安装完后在 mac 上启动 ollama 应用程序,在 linux 上通过 ollama serve 启动,可通过 ollama list 确认。 智能体应用的相关介绍: 大模型存在无法回答私有领域问题、无法及时获取最新信息、无法准确回答专业问题等局限性,为提升用户体验和增强业务竞争力,越来越多的企业构建 AI 助手。智能体应用基于大模型,通过集成特定的外部能力弥补不足,适用于有企业官网等渠道期望提供产品咨询服务、缺少技术人员开发大模型问答应用等场景。其典型场景包括私有领域知识问答、个性化聊天机器人、智能助手等。
2025-03-23
请问哪个平台支持上传私人知识库文件
以下平台支持上传私人知识库文件: 本地文档: 文本内容: 支持格式:.txt、.pdf、.docx。 操作步骤:在文本格式页签下选择本地文档,然后单击下一步。将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档。每个文件不得大于 20M,一次最多可上传 10 个文件。上传完成后选择内容分段方式,包括自动分段与清洗(系统会对上传的文件数据进行自动分段,并会按照系统默认的预处理规则处理数据)和自定义(手动设置分段规则和预处理规则,包括选择分段标识符、设置分段最大长度、设置文本预处理规则,如替换掉连续的空格、换行符和制表符,删除所有 URL 和电子邮箱地址),最后单击下一步完成内容上传和分片。 表格数据: 支持格式:.csv 和.xlsx。 操作步骤:在表格格式页签下选择本地文档,然后单击下一步。将要上传的文档拖拽到上传区,或单击上传区域选择要上传的文档,然后单击下一步。每个文件不得大于 20M,一次最多可上传 10 个文件。配置数据表信息,包括指定数据范围(通过选择数据表、表头、数据起始行指定数据范围)、确认表结构(系统已默认获取表头的列名,可自定义修改列名或删除某一列名)、指定语义匹配字段(选择作为搜索匹配的语义字段)。查看表结构和数据,确认无误后单击下一步,完成上传后单击确定。 Notion: 操作步骤:在文本格式页签下选择 Notion,然后单击下一步。单击授权,首次导入 Notion 数据和页面时需要进行授权。在弹出的页面完成登录,并选择要导入的页面。选择要导入的数据,然后单击下一步。选择内容分段方式,包括自动分段与清洗和自定义,最后单击下一步完成内容上传和分片。 自定义: 操作步骤:在文本格式页签下选择自定义,然后单击下一步。输入单元名称,然后单击确认。单击创建分段,然后在弹出的页面输入要上传的内容。每个分段最多可添加 2000 个字符。单击保存。
2025-03-18