ホーム/質問リスト/質問詳細

大模型技术和应用动态

回答

以下是关于大模型技术和应用动态的相关信息：

大模型的背景和趋势：

随着大模型技术的成熟和规模增大，其为 AI Agent 提供强大能力，有望构建具备自主思考、决策和执行能力的智能体，广泛应用于多个行业和领域。

大模型的热门应用场景：

游戏开发和互动体验：用于创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。
医疗和健康咨询：理解和回答医疗相关问题，提供初步的健康建议和医疗信息查询服务。
法律和合规咨询：帮助解读法律文件，提供合规建议，降低法律服务门槛。

大模型中的 Embedding 技术：

Embedding 是一个浮点数的向量（列表），两个向量之间的距离度量它们的相关性，小的距离表示高相关性，大的距离表示低相关性。
Embedding 共有词、句子、文档、图像等分类。
实战方面，可从数据集中获取 Embedding 结果，并保存为 csv 文件。参考 OpenAI 官网最新文档，加上个人测试阶段的问题和代码注释。进阶到企业级应用开发的大模型技术还会涉及利用开源的 Embedding 模型、向量数据库去做检索增强生成（RAG），以及购买 GPU 服务器去基于开源大模型搭建企业级大模型项目。

需要注意的是，随着大模型的普及，也需关注其在隐私、安全和伦理方面的挑战。同时，部分内容由 AI 大模型生成，请仔细甄别。

AIモデルによって生成されたコンテンツであり、慎重に確認してください（提供元: aily）

参照

开发：AI应用大模型商业化落地现状与思考

首先，我们先来看大模型的背景和发展趋势。关于AI的演进历程，很多媒体包括各类研究资料都已经做过详细的介绍，相信今天在座的各位对AI的基本情况都已有所了解，因此我不会过多赘述AI的演进历程。（有兴趣的小伙伴可以多从公开资料中查找一下~）我们的重点将放在大模型当前的应用能力上，随着大模型技术的愈发成熟，规模增大，大模型为AI Agent()提供强大能力。Agent+大模型将有望构建具备自主思考、决策和执行能力的智能体，进一步提升大模型的应用能力，广泛应用于多个行业和领域。

问：现在大模型有什么比较火的应用场景

游戏开发和互动体验：大模型可以用于创建游戏中的角色对话、故事情节生成和增强玩家的沉浸式体验。医疗和健康咨询：大模型能够理解和回答医疗相关的问题，提供初步的健康建议和医疗信息查询服务。法律和合规咨询：大模型可以帮助解读法律文件，提供合规建议，降低法律服务的门槛。这些应用场景只是大模型潜力的一部分体现，随着技术的进步和模型的优化，大模型在未来可能会拓展到更多的领域和场景中。同时，随着大模型的普及，也需要注意其在隐私、安全和伦理方面的挑战。内容由AI大模型生成，请仔细甄别。

认识大模型 Embedding 技术加实战

我们认识了Embedding（嵌入）是一个浮点数的向量（列表），两个向量之间的距离度量它们的相关性，小的距离表示高相关性，大的距离表示低相关性。知道了Embedding共有：词、句子、文档、图像等分类。还分析了Embedding在大模型中的价值。最后是Embedding的实战部分：从数据集中获取Embedding结果，并保存为csv文件。最后，本示例中的实战代码，参考的是官方最新文档的内容，加上个人测试阶段的遇到的问题、代码注释等OpenAI官网文档链接：https://platform.openai.com/docs/introduction大模型技术，除了在OpenAI官网能看到的：Embedding、Function Call和Fune Tuning等。进阶到企业级应用开发的大模型技术还会涉及到：利用开源的Embedding模型、向量数据库去做检索增强生成（RAG），以及购买GPU服务器去基于开源大模型搭建企业级大模型项目。

他の質問

大模型的系统提示词

大模型的系统提示词主要包括以下方面： 1. 在“五津：一键生成‘摸鱼打工猫’视频”中，针对用户选择的主题和回答，总结用户的创作意图，如“打工猫摸鱼的 2 小时，在巴厘岛能看一场日落”，并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词，以数组形式输出到“tishici”，将用户意图输出到“biaoti”。 2. 在“云中江树：智能对决：提示词攻防中的 AI 安全博弈”中，系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意；模型侧对于有能力的厂商应增强安全性并平衡性能，开发者则要在开发中带着安全意识优化系统提示词，加入安全引导和禁止内容等；输出侧可使用传统防御和内容过滤手段，并针对大模型特点进行私有数据泄露等检查。此外，还提到间接注入和提示词泄露的情况，间接注入常发生在应用获取依赖外部数据资源时，攻击者通过隐藏恶意指令完成攻击；提示词泄露指试图操纵模型输出获取部分或全部系统提示词，大模型输出内容可分为系统提示词、用户提示和助手提示词三段，通过攻击手段可获取系统提示词。

2025-04-18

通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash，这3个视觉理解大模型哪个最厉害？

以下是对通义千问 Qwen2.5VL 模型的介绍：版本：有 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 然而，对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型，目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容，因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看，其在视觉理解方面具有较强的能力和优势。

2025-04-15

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

2025-04-15

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。