通义千问在模型方面有以下重要进展:
在 AI 视频领域,近半年闭源产品的热门趋势如下:
通义千问旗舰版模型全新升级发布1️⃣Qwen2.5-MaxQwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。通义千问深夜连续两个重大版本开源2️⃣Qwen2.5-VL全新视觉模型实现重大突破:增强物体识别与场景理解支持文本、图表、布局分析可处理长达1小时视频内容具备设备操作的Agent能力3️⃣Qwen2.5-1M超长文本处理能力显著提升:处理速度提升近7倍上下文长度扩展至100万tokens可处理约150万汉字(相当于2部《红楼梦》)[heading1]详解
[heading4]Qwen2.5-VL模型-AI视觉智能体能力大幅增强[content]版本:3B、7B和72B三个尺寸版本主要优势:视觉理解能力:在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。视频理解能力:支持超1小时的视频理解,无需微调即可变身为AI视觉智能体,实现多步骤复杂操作。万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的JSON格式输出。全面的文字识别和理解:提升OCR识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。Qwen特色文档解析:设计了更全面的文档解析格式,称为QwenVL HTML格式,能够精准还原文档中的版面布局。增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。开源平台:Huggingface:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5Modelscope:https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47Qwen Chat:https://chat.qwenlm.ai
9月24日,字节发布了PixelDance、Seaweed两款视频AI模型,从官方Demo看,两款模型对长提示词,人物连续动作转变、多镜头组合、人物一致性的支持非常好。将有望成为国产AI头部核心竞争者。目前产品还在开放内测申请中。网页版访问:https://jimeng.jianying.com/ai-tool/home/内测申请:https://bit.ly/jimengai[heading2]海螺AI[content]MiniMax出品,出场视频演示非常惊艳,简单测试下来发现画面清晰度、画面表现力等均好过可灵1.0。在近期的Vbench排行榜中,海螺也获得了16个维度综合评分第一名。目前仅支持txt2vid方案。网页版访问:https://hailuoai.com/video[YouTube video.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/WMLIbJyG2oXY71xCAIrcyEWKnDf?allow_redirect=1)博主[@seiiiiiiiiiiru](https://x.com/seiiiiiiiiiiru)测试时发现海螺AI在分屏联动、关键帧精确控制上效果非常好,[heading2]通义万相[content]阿里云旗下产品,上半年有多个现象级案例刷屏,例如奶牛猫跳洗澡舞、全民跳科目三(这些功能在通义千问APP中可以找到)。9月刚开放了视频生成产品的预约,一次视频生成需要10min,测试了下生成效果一般般。网页版访问:https://tongyi.aliyun.com/移动端下载:通义APP