「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
什么是多模态模型
多模态模型是指能够处理和融合多种不同模态信息的模型,例如视觉和语言双模态。以下为您介绍一些相关的多模态模型: CogAgent18B:这是基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。 CogVLM17B:强大的开源视觉语言模型(VLM),基于对视觉和语言信息之间融合的理解,能在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合,是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于。 RDM(Relay Diffusion Model):级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 Gemini 模型本身也是多模态的,其展示了无缝结合跨模态能力的独特能力,例如从表格、图表或图形中提取信息和空间布局,以及语言模型的强大推理能力,在识别输入中的细微细节、在空间和时间上聚合上下文,以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态(图像、视频和音频)上的更详细评估,以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。
2025-01-06
提示词工程技术
提示词工程师(Prompt Engineer)是在与人工智能模型交互时,负责设计和优化提示的专业人员。他们的目标是通过精心构造的提示,引导模型产生准确、有用和相关的回答。 提示词工程师的主要职责包括: 1. 设计提示:根据用户需求和模型能力设计有效的提示,考虑提示的长度、结构、措辞和信息量等因素,以清晰传达用户意图并引导模型生成满意结果。 2. 优化提示:通过收集用户反馈、分析模型结果和实验不同的提示策略等方式不断优化提示,提高模型性能。 3. 评估提示:使用各种指标如模型的准确率、流畅度和相关性等来评估提示的有效性。 提示词工程师需要具备以下技能和知识: 1. 领域知识:对所工作的领域有深入了解,以便设计出有效的提示。 2. 自然语言处理(NLP):了解 NLP 的基本原理和技术,能够理解和生成自然语言文本。 3. 人工智能(AI):了解 AI 的基本原理和技术,能够理解和使用 AI 模型。 4. 沟通能力:具备良好的沟通能力,与用户、团队成员和其他利益相关者有效沟通。 以下是一些提示词工程师工作的实际案例: 在推理任务方面,目前对于大语言模型来说具有挑战性,但通过更高级的提示词工程技术可以改进。例如在涉及数学能力的推理任务中,通过设计不同的提示词和示例来展示算术功能。 在实现让 LLM 获得 tool calling 的功能方面,采用的提示词工程主要有两部分代码组成:提示词注入和工具结果回传。提示词注入用于将工具信息以及使用工具的提示词添加到系统提示中,包含 TOOL_EAXMPLE、tools_instructions、REUTRN_FORMAT 三个部分。工具结果回传则是解析 tool calling 的输出,并将工具返回的内容再次嵌入 LLM。利用正则表达式抓取输出中的“tool”和“parameters”参数,对于不同工具采用相应的处理方式。通过以上提示词工程,可以避免微调,让完全没有 tool calling 能力的 LLM 获得稳定的 tool calling 能力。 提示词工程师是一个新兴的职业,随着人工智能技术的不断发展,对提示词工程师的需求将会越来越大。
2025-01-06
微调所需要的算力计算公式
微调所需算力的计算涉及多个因素,目前没有一个固定的通用公式。但以下是一些相关的要点和参考: 在一些教程中,如“大圣:全网最适合小白的 Llama3 部署和微调教程”,提到微调可能需要预充值购买算力,费用约 50 元。 对于大型语言模型(LLM)的微调,由于模型规模大,更新每个权重可能需要很长时间的训练工作,计算成本较高。 在微调过程中,超参数的配置也会影响算力需求。例如,选择不同的基本模型(如“ada”、“babbage”、“curie”或“davinci”)、设置训练的时期数(n_epochs)、批量大小(batch_size)、学习率乘数(learning_rate_multiplier)等。批量大小通常为训练集中示例数量的 0.2%,上限为 256;学习率乘数默认为 0.05、0.1 或 0.2,具体取决于最终的批量大小。 需要注意的是,不同的模型和具体的微调任务,其算力需求会有所不同。
2025-01-06
GPU的计算特性
GPU(图形处理器)具有以下计算特性: 1. 专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。 2. 诞生源自对 CPU 的减负,使显卡减少了对 CPU 的依赖,并进行部分原本 CPU 的工作,尤其是在 3D 图形处理时。 3. 所采用的核心技术有硬件 T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素 256 位渲染引擎等,硬件 T&L 技术可以说是 GPU 的标志。 4. 生产商主要有 NVIDIA 和 ATI。 5. 在矩阵乘法方面表现出色,早期使用 GPU 训练神经网络,能使运算速度提高 30 倍。
2025-01-06
单轮对话与多轮对话调用
聊天模型通过一串聊天对话作为输入,并返回一个模型生成的消息作为输出。尽管聊天格式的设计是为了多轮对话更简单,但它对于没有任何对话的单轮任务同样有用(例如以前由 textdavinci003 等指令遵循模型提供的任务)。 API 调用的例子中,messages 参数是主要的输入,必须是一个消息对象的数组,每个对象拥有一个 role(“system”“user”或“assistant”)和 content(消息的内容)。会话可以少至 1 条消息或者有许多条。通常,会话首先使用系统消息(“system”)格式化,然后交替使用用户消息(“user”)和助手消息(“assistant”)。系统消息有助于设定助手的行为,用户消息帮助指示助手,助手消息用于存储之前的响应。当用户的指令是关于之前的消息时,包含聊天历史记录将有所帮助。如果会话包含的 token 超出了模型的限制,则需要用一些方法去缩减会话。 此外,还存在一些与百炼相关的 Q&A: 如何调用工作流?在提示词写了让大模型调用 xxx 工作流,但实际总是不调用。文档里也没有写调用方式。 如何把开始节点的输入参数直接接入到代码节点中进行处理? 千问模型基本不能处理标点符号,在提示词中各种要求句尾不要有句号,可仍旧有。甚至在工作流中用代码去掉后,回到应用中又给加上了标点符号。同样的提示词,放在扣子中就可以去掉标点符号。 为什么同样的问题,给出的答案区别这么大?接的就是同一个应用,这个问题很早就预测过了,同一个模型。 无论 prompt 怎么变,模型生成完内容后,自动被“不生成任何的标点符号”所替换。这个情况在 max。 COW 调用百炼应用如何支持多轮对话么?
2025-01-06
RAG工作流对话调试
RAG 工作流主要包括以下几个阶段: 1. 问题解析阶段:接收并预处理问题,通过嵌入模型(如 Word2Vec、GloVe、BERT)将问题文本转化为向量,以用于后续检索。 2. 知识库检索阶段:知识库中的文档同样向量化后,比较问题向量与文档向量,选择最相关的信息片段并抽取传递给下一步骤。 3. 信息整合阶段:接收检索到的信息,与上下文构建形成融合、全面的信息文本,整合信息准备进入生成阶段。 4. 大模型生成回答:整合后的信息被转化为向量并输入到 LLM(大语言模型),模型逐词构建回答,最终输出给用户。 RAG 是一种结合了检索和生成的技术,其基本流程为:首先,给定用户输入(如问题或话题),RAG 从数据源(如网页、文档、数据库记录)中检索出相关文本片段(即上下文)。然后,将用户输入和检索到的上下文拼接成完整输入传递给大模型(如 GPT),输入通常包含提示,指导模型生成期望输出(如答案或摘要)。最后,从大模型输出中提取或格式化所需信息返回给用户。 在实际调试预览中,例如: 1. 知识库检索部分:把输入的问题通过 Embedding 做向量化,使用 qwen 语言模型优化问题、添加接近的检索词,知识库向量检索时抽取条件包含相似度 0.85,通过检索抽取出 11 个内容块。 2. 大模型对话部分:将相关信息传递给 LLM(大语言模型),最终得到 AI 的回答。
2025-01-06
通过 API 调用大模型
以下是通过 API 调用大模型的相关步骤: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用。在对话框,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。您也可以选择输入一些 Prompt,比如设置一些人设以引导大模型更好的应对客户咨询。 在页面右侧可以提问验证模型效果。不过您会发现,目前它还无法准确回答你们公司的商品信息。点击右上角的发布。 2. 获取调用 API 所需的凭证: 在我的应用>应用列表中可以查看所有百炼应用 ID。保存应用 ID 到本地用于后续配置。 在顶部导航栏右侧,点击人型图标,点击 APIKEY 进入我的 APIKEY 页面。在页面右侧,点击创建我的 APIKEY,在弹出窗口中创建一个新 APIKEY。保存 APIKEY 到本地用于后续配置。 3. 直接调用大模型(之前完成过 coze 对接的同学,直接去二、百炼应用的调用): 百炼首页:https://bailian.console.aliyun.com/ 当在 COW 中直接调用千问的某一个大模型时,只需要更改 key 和 model 即可。以调用“qwenmax”模型为例,在/root/chatgptonwechat/文件夹下,打开 config.json 文件,需要更改"model",和添加"dashscope_api_key"。 获取 key 的视频教程: 图文教程:以下是参考配置。 注意:需要“实名认证”后,这些 key 才可以正常使用,如果对话出现“Access to mode denied.Please make sure you are eligible for using the model.”的报错,那说明您没有实名认证,点击去,或查看自己是否已认证。 4. 申请大模型的 API 接口(以 silicon 硅基接口为例): 官方提供的接入 API 的教学文档。 以平时使用的 silicon 接口为例,有众多开源模型(Yi、Qwen、Llama、Gemma 等)免费使用。另赠送 14 元体验金,有效期未知,是个人认为 API 接口最方便最实惠的接口了。 silicon 注册和使用地址: 邀请码:ESTKPm3J(谢谢支持) 注册登录后,单击左边栏的 API 密钥,单击新建 API 密钥。 单击密钥即可完成 API 密钥的复制。 silicon 支持多种大模型,也支持文生图、图生图、文生视频,可自行探索。 这一步得到 silicon 的密钥即可,我们可以调用千问 2.5 的这个模型,满足日常对话完全没有问题,并且是免费调用的。 5. 申请大模型的 API 接口(以智普 GLM4 接口为例): 正在 BigModel.cn 上用智谱 API 打造新一代应用服务,通过专属邀请链接注册即可获得额外 GLM4Air 2000 万 Tokens 好友专属福利,期待和您一起在 BigModel 上探索 AGI 时代的应用;链接:https://www.bigmodel.cn/invite?icode=xxcbnybpRLOsZGMNOkqaLnHEaazDlIZGj9HxftzTbt4%3D 进入个人中心,先完成实名认证,再单击左边栏 API KEYS 或右上角的 API 密钥,进入后单击右上角的添加 API。 鼠标移至密钥上方,单击复制即可得到智普的 APIkey。 这一步做的是注册 silicon 和智普 GLM 的大模型账号,申请 API 密钥,保存密钥,等下配置需要填写。 密钥一定要保管好不能公开,否则后果很严重。
2025-01-06
RAG工作流搭建
RAG(检索增强生成)工作流搭建主要包括以下步骤: 1. 文档加载:从多种不同来源加载文档,如包括 PDF 在内的非结构化数据、SQL 在内的结构化数据以及 Python、Java 之类的代码等。LangChain 提供了 100 多种不同的文档加载器。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储: 将切分好的文档块进行嵌入(Embedding)转换成向量的形式。 将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。 RAG 是一种结合了检索和生成的技术,它可以让大模型在生成文本时利用额外的数据源,从而提高生成的质量和准确性。其基本流程为:首先,给定一个用户的输入,如问题或话题,RAG 会从数据源中检索出相关的文本片段作为上下文。然后,将用户输入和检索到的上下文拼接成完整输入传递给大模型,并包含提示指导模型生成期望输出。最后,从大模型输出中提取或格式化所需信息返回给用户。 此外,还有相关的学习资源,如用 Coze 学习 RAG 的视频演示,包括 Query 改写效果对比 Bot 和 RAG 全流程学习 Bot 等。同时,也有关于如何使用 LangChain 开发简单 RAG 问答应用的介绍。
2025-01-06
我想要生成一个logo,应该使用哪个工具
以下是一些可以生成 logo 的工具: 1. Looka:在线 Logo 设计平台,使用 AI 理解用户品牌信息和设计偏好,生成多个设计方案供选择和定制。 2. Tailor Brands:AI 驱动的品牌创建工具,通过用户回答问题生成 Logo 选项。 3. Designhill:其 Logo 制作器使用 AI 技术创建个性化设计,用户可选择元素和风格。 4. LogoMakr:提供简单易用的设计工具,用户可拖放设计,利用 AI 建议的元素和颜色方案。 5. Canva:广受欢迎的在线设计工具,提供 Logo 设计模板和元素,有 AI 辅助设计建议。 6. LogoAI by Tailor Brands:Tailor Brands 推出的 AI Logo 设计工具,根据输入快速生成方案。 7. 标小智:中文 AI Logo 设计工具,利用人工智能技术帮助创建个性化 Logo。 此外,您还可以访问以下网站获取更多好用的工具: 另外,还有以下特定的工具和使用方法: 1. 超强 LOGO 生成器:设计一个 logo 生成工具,允许用户上传多张 logo 图片作为参考,通过提示询问用户是否使用这些图片来创建新的 logo 设计,可自定义提示词风格和设定每张图片的参考权重。利用 GPT4 Vision 的识图能力提取图片关键特征生成新 logo,不满意可重新生成,创作完提示用户是否满意,满意则发送转 LOGO 矢量图。 2. ideogram:海外生图平台,早期以准确生成图片文字出名,目前有大量创作者生成各类创意 Logo,对英文字母生成友好,输入支持中文。使用方法是在首页信息流中找到中意的 Logo 款式,点进去 retry,替换提示词中字母部分,支持主流图片比例和主流风格选择。 3. liblib 及 esheep 在线工作流: 极简 Logo:进入极简 Logo Lora 生成页面 https://www.liblib.art/modelinfo/8db352bf5f6b4190841de341cb9eaa0c 。 毛绒风格 Logo:进入 https://www.esheep.com/app/9116?utm_source=app_tab 一键运行。 夏日冰冰凉风格 Logo:进入 https://www.esheep.com/app/8975?utm_source=app_tab 一键运行。
2025-01-06
能否实现,通过对话,了解一个人的生平,然后生成一个人的回忆录或者自传
目前通过对话来全面了解一个人的生平并生成其回忆录或自传具有一定的挑战性。虽然自然语言处理和人工智能技术在理解和处理语言方面取得了显著进展,但要准确、完整地捕捉一个人一生的复杂经历、情感和细节仍然存在困难。 然而,利用 AI 技术可以在一定程度上辅助这一过程。例如,可以通过与个人的多次深入交流,提取关键信息和重要事件,并运用语言生成模型来初步构建相关内容。但这需要大量的交互和精细的引导,并且生成的结果可能还需要人工进一步的编辑和完善,以确保其准确性和真实性。 总之,虽然完全依靠对话实现完美的个人回忆录或自传生成尚有难度,但 AI 可以作为一个有潜力的辅助工具来参与这一过程。
2025-01-06