Chat with Wiki - 通义千问ai视频

Answer

通义千问在模型方面有以下重要进展：

发布一个模型开源两个模型：
- Qwen2.5-Max：比肩 Claude-3.5-Sonnet，并几乎全面超越了 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。
- Qwen2.5-VL：全新视觉模型实现重大突破，具有增强的物体识别与场景理解能力，支持文本、图表、布局分析，可处理长达 1 小时视频内容，具备设备操作的 Agent 能力。其有 3B、7B 和 72B 三个尺寸版本，在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT-4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局，采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台包括：Huggingface（https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5 ）、Modelscope（https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47 ）、Qwen Chat（https://chat.qwenlm.ai ）。
- Qwen2.5-1M：超长文本处理能力显著提升，处理速度提升近 7 倍，上下文长度扩展至 100 万 tokens，可处理约 150 万汉字（相当于 2 部《红楼梦》）。

在 AI 视频领域，近半年闭源产品的热门趋势如下：

即梦 AI：9 月 24 日字节发布的 PixelDance、Seaweed 两款视频 AI 模型，对长提示词，人物连续动作转变、多镜头组合、人物一致性的支持非常好。目前产品还在开放内测申请中。网页版访问：https://jimeng.jianying.com/ai-tool/home/ ，内测申请：https://bit.ly/jimengai 。
海螺 AI：MiniMax 出品，出场视频演示非常惊艳，在近期的 Vbench 排行榜中，获得了 16 个维度综合评分第一名。目前仅支持 txt2vid 方案。网页版访问：https://hailuoai.com/video 。
通义万相：阿里云旗下产品，上半年有多个现象级案例刷屏，9 月刚开放了视频生成产品的预约，一次视频生成需要 10min，生成效果一般般。网页版访问：https://tongyi.aliyun.com/ ，移动端下载：通义 APP 。

Content generated by AI large model, please carefully verify (powered by aily)

References

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

通义千问旗舰版模型全新升级发布1️⃣Qwen2.5-MaxQwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。通义千问深夜连续两个重大版本开源2️⃣Qwen2.5-VL全新视觉模型实现重大突破：增强物体识别与场景理解支持文本、图表、布局分析可处理长达1小时视频内容具备设备操作的Agent能力3️⃣Qwen2.5-1M超长文本处理能力显著提升：处理速度提升近7倍上下文长度扩展至100万tokens可处理约150万汉字（相当于2部《红楼梦》）[heading1]详解

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

[heading4]Qwen2.5-VL模型-AI视觉智能体能力大幅增强[content]版本：3B、7B和72B三个尺寸版本主要优势：视觉理解能力：在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。视频理解能力：支持超1小时的视频理解，无需微调即可变身为AI视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的JSON格式输出。全面的文字识别和理解：提升OCR识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。Qwen特色文档解析：设计了更全面的文档解析格式，称为QwenVL HTML格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台：Huggingface：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5Modelscope：https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47Qwen Chat：https://chat.qwenlm.ai

AI视频爆发式更新- 近半年闭源产品趋势

9月24日，字节发布了PixelDance、Seaweed两款视频AI模型，从官方Demo看，两款模型对长提示词，人物连续动作转变、多镜头组合、人物一致性的支持非常好。将有望成为国产AI头部核心竞争者。目前产品还在开放内测申请中。网页版访问：https://jimeng.jianying.com/ai-tool/home/内测申请：https://bit.ly/jimengai[heading2]海螺AI[content]MiniMax出品，出场视频演示非常惊艳，简单测试下来发现画面清晰度、画面表现力等均好过可灵1.0。在近期的Vbench排行榜中，海螺也获得了16个维度综合评分第一名。目前仅支持txt2vid方案。网页版访问：https://hailuoai.com/video[YouTube video.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/WMLIbJyG2oXY71xCAIrcyEWKnDf?allow_redirect=1)博主[@seiiiiiiiiiiru](https://x.com/seiiiiiiiiiiru)测试时发现海螺AI在分屏联动、关键帧精确控制上效果非常好，[heading2]通义万相[content]阿里云旗下产品，上半年有多个现象级案例刷屏，例如奶牛猫跳洗澡舞、全民跳科目三（这些功能在通义千问APP中可以找到）。9月刚开放了视频生成产品的预约，一次视频生成需要10min，测试了下生成效果一般般。网页版访问：https://tongyi.aliyun.com/移动端下载：通义APP