直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

2025.3.18 新的大模型新闻

回答

以下是 2025 年 3 月 18 日的一些新的大模型新闻:

  • DeepSeek 深夜发布大一统模型 Janus-Pro,将图像理解和生成统一在一个模型中。其官网发声渠道包括微信公众号:DeepSeek;小红书:@DeepSeek(deepseek_ai);X(Twitter):DeepSeek(@deepseek_ai);知乎账号(2025 年 3 月 1 日注册)。模型(7B)和(1B)的相关信息可参考特定链接。
  • 2025 年 3 月 10 日的新闻:《大模型的未来,是 Agent 还是 App?》中提到 OpenAI 的 Deep Research 被视为一种新型的研究语言模型,具备自主执行搜索任务的能力。
  • 2025 年 3 月 3 日的新闻:2025 年将是智谱的开源年,即将发布全新大模型并开源。2024 年 12 月,智谱已完成 D+轮 30 亿元人民币融资。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

详解:DeepSeek深度推理+联网搜索 目前断档第一

微信公众号:DeepSeek小红书:@DeepSeek(deepseek_ai)X(Twitter):DeepSeek(@deepseek_ai)知乎账号(2025年3月1日注册):最新消息:[DeepSeek深夜发布大一统模型Janus-Pro将图像理解和生成统一在一个模型中](https://waytoagi.feishu.cn/wiki/SneLwRmsYiUaI6kvxltcEBPPnhb)deepseek刚刚发布了新模型-一个强大的框架,它将图像理解和生成统一在一个模型中!!!上一个是智源开源的Emu3模型(7B):模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1BJanus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一变压器架构进行处理。解耦不仅缓解了视觉编码Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一变压器架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型z的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

4.4 历史更新

《[大模型的未来,是Agent还是App?](https://mp.weixin.qq.com/s/5JzhJIUY3vpz4RGyobI7Ag)》OpenAI的Deep Research被视为一种新型的研究语言模型,具备自主执行搜索任务的能力。与之对比,许多现有的Agent更像是预定义的工作流。随着模型的不断进化,未来可能会出现模型公司吞噬应用公司的现象。正如文中提到的:“如果模型本身能执行任务,应用公司的空间还存在吗?”《[传奇风投Bill Gurley 1999年的博客:好故事赢得未来](https://mp.weixin.qq.com/s/NJnbXxyI7s08boHUFIEKDA)》这篇文章来自比尔·格尔利(Bill Gurley),他是风险投资基金Benchmark Capital的传奇投资人之一。这篇文章写于2000年互联网泡沫破灭之前,Bill Gurley提到了企业家克雷格·麦考很有创造性地用"人口覆盖率"和“覆盖家庭数”作为一种“替代性估值指标”,重构当时刚刚开始的互联网行业基础设施类公司的估值体系,转变了投资者群体对这一类新兴商业模式的认知。

XiaoHu.AI日报

参与方:杭州城投产业基金、上城资本等2025年将是智谱的开源年,即将发布全新大模型并开源2024年12月,智谱已完成D+轮30亿元人民币融资?[https://x.com/imxiaohu/status/1896379234815488027](https://x.com/imxiaohu/status/1896379234815488027)

其他人在问
大模型的系统提示词
大模型的系统提示词主要包括以下方面: 1. 在“五津:一键生成‘摸鱼打工猫’视频”中,针对用户选择的主题和回答,总结用户的创作意图,如“打工猫摸鱼的 2 小时,在巴厘岛能看一场日落”,并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词,以数组形式输出到“tishici”,将用户意图输出到“biaoti”。 2. 在“云中江树:智能对决:提示词攻防中的 AI 安全博弈”中,系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意;模型侧对于有能力的厂商应增强安全性并平衡性能,开发者则要在开发中带着安全意识优化系统提示词,加入安全引导和禁止内容等;输出侧可使用传统防御和内容过滤手段,并针对大模型特点进行私有数据泄露等检查。此外,还提到间接注入和提示词泄露的情况,间接注入常发生在应用获取依赖外部数据资源时,攻击者通过隐藏恶意指令完成攻击;提示词泄露指试图操纵模型输出获取部分或全部系统提示词,大模型输出内容可分为系统提示词、用户提示和助手提示词三段,通过攻击手段可获取系统提示词。
2025-04-18
通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash,这3个视觉理解大模型哪个最厉害?
以下是对通义千问 Qwen2.5VL 模型的介绍: 版本:有 3B、7B 和 72B 三个尺寸版本。 主要优势: 视觉理解能力:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。 视频理解能力:支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。 万物识别:擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。 精准的视觉定位:采用矩形框和点的多样化方式对通用物体定位,支持层级化定位和规范的 JSON 格式输出。 全面的文字识别和理解:提升 OCR 识别能力,增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析:设计了更全面的文档解析格式,称为 QwenVL HTML 格式,能够精准还原文档中的版面布局。 增强的视频理解:引入动态帧率(FPS)训练和绝对时间编码技术,支持小时级别的超长视频理解,具备秒级的事件定位能力。 开源平台: Huggingface:https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope:https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat:https://chat.qwenlm.ai 然而,对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型,目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容,因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看,其在视觉理解方面具有较强的能力和优势。
2025-04-15
目前全世界最厉害的对视频视觉理解能力大模型是哪个
目前在视频视觉理解能力方面表现出色的大模型有: 1. 昆仑万维的 SkyReelsV1:它不仅支持文生视频、图生视频,还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL:在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解,无需微调即可变身为 AI 视觉智能体,实现多步骤复杂操作。擅长万物识别,能分析图像中的文本、图表、图标、图形和布局等。
2025-04-15
目前全世界最厉害的视频视觉理解大模型是哪个
目前全世界较为厉害的视频视觉理解大模型有以下几个: 1. 昆仑万维的 SkyReelsV1:不仅支持文生视频、图生视频,是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元:语义理解能力出色,能精准还原复杂的场景和动作,如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5:全球最快的 AI 视频生成模型,Turbo 模式下可在 10 秒内生成视频,最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能,具备顶尖动漫生成能力。
2025-04-15
目前全世界最厉害的视觉理解大模型是哪个
目前在视觉理解大模型方面,较为突出的有 DeepSeek 的 JanusPro 模型,它将图像理解和生成统一在一个模型中;还有通义千问的视觉理解模型,其价格有较大降幅。此外,Pixverse V3.5 是全球最快的 AI 视频生成模型,在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型,因为这取决于不同的评估标准和应用场景。
2025-04-15
大模型对话产品的优劣
大模型对话产品具有以下优点: 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验,具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接,产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务,适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景,如私有领域知识问答、个性化聊天机器人、智能助手等。 大模型对话产品也存在一些缺点: 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情,全靠用户脑补,导致用户上头期短,疲劳度高,长期留存低。 3. 无法回答私有领域问题(如公司制度、人员信息等)。 4. 无法及时获取最新信息(如实时天气、比赛结果等)。 5. 无法准确回答专业问题(如复杂数学计算、图像生成等)。
2025-04-14
运用ai,生成每日自动推送到飞书消息的 公司文化日报,包含日历 天气 新闻 内部规划 事项
要运用 AI 生成每日自动推送到飞书消息的公司文化日报,包含日历、天气、新闻、内部规划和事项,您可以考虑以下步骤: 首先,需要确定获取日历、天气、新闻、内部规划和事项等信息的数据源。对于日历,可以使用在线日历服务的 API 来获取相关数据;天气信息可以从专业的气象数据提供商获取;新闻可以通过新闻聚合 API 或者与特定的新闻机构合作获取;内部规划和事项则需要从公司内部的管理系统或数据库中提取。 然后,选择适合的 AI 技术和工具。例如,可以使用自然语言处理技术来对获取到的数据进行处理和整合,生成易于阅读和理解的文本内容。 在生成日报的过程中,要注意格式的规范和统一,使其具有良好的可读性。同时,可以根据公司的文化特点和需求,对内容进行个性化的定制和优化。 另外,为了确保推送的准确性和及时性,需要建立有效的监控和反馈机制,及时发现并解决可能出现的问题。 希望以上建议对您有所帮助。
2025-04-14
2025年3月27日AI新闻
以下是 2025 年 3 月 27 日的部分 AI 新闻: 《详解 MCP:Agentic AI 中间层最优解,AI 应用的标准化革命》:Anthropic 推出的开放协议 MCP 迅速垄断了 Agentic AI 的中间层,类似于 AI 应用的 USBC 端口。它简化了开发者与数据源的整合,促进了生态形成,可能成为“Agentic AI 领域的 Stripe”,为未来 AI 应用的标准化革命奠定基础。 《对谈|如何用 AI 增强人类学习》:Howie.Serious 与 Indigo 探讨了费曼学习法与 AI 创作的结合,强调输出能迫使知识内化。两位终身学习者分享了如何通过高效利用 AI 提升写作与学习,推动思维深度,指出未来的 AI Agent 应具备更强的自动化整合能力,助力人类保持独特价值与创造力。 《硅谷知名风投 BVP 专栏:消费级 AI 的临界点将至!》:消费级 AI 正迎来临界点,推动一波又一波的变革。随着基础模型成本降低和多模态技术进步,新的消费类 AI 公司不断涌现。未来,AI 将重塑旅行、购物和社交体验,提升个性化服务的准确性与便利性。 此外,2 月 27 日的相关新闻有:小红书 AI 赛道从 0 到 1 做 IP 的相关活动预告、工具分享及日更群计划。3 月 5 日的新闻包括:2025 开年 3 个月 AI 已经狂飙,更新密集发布;Grok 语音模式全面开放,支持 11 种模式(包括 2 种 18 禁),自带语音字幕,目前仅支持英文。
2025-03-27
3月27日,AI圈有哪些新闻
以下是 3 月 27 日 AI 圈的部分新闻: 《详解 MCP:Agentic AI 中间层最优解,AI 应用的标准化革命》:Anthropic 推出的开放协议 MCP 迅速垄断了 Agentic AI 的中间层,类似于 AI 应用的 USBC 端口,简化了开发者与数据源的整合,促进了生态形成,可能成为“Agentic AI 领域的 Stripe”,为未来 AI 应用的标准化革命奠定基础。 《对谈|如何用 AI 增强人类学习》:Howie.Serious 与 Indigo 探讨了费曼学习法与 AI 创作的结合,强调输出能迫使知识内化,分享了如何通过高效利用 AI 提升写作与学习,推动思维深度,指出未来的 AI Agent 应具备更强的自动化整合能力,助力人类保持独特价值与创造力。 《硅谷知名风投 BVP 专栏:消费级 AI 的临界点将至!》:消费级 AI 正迎来临界点,推动变革。随着基础模型成本降低和多模态技术进步,新的消费类 AI 公司涌现,未来 AI 将重塑旅行、购物和社交体验,提升个性化服务的准确性与便利性。 此外,还有以下商业和技术方面的新闻: AI 商业爆发年:可灵 AI 营收破亿元,AIGC 营销素材日均消耗超 3000 万元。快手将 AI 作为生态重塑核心,引领视频生成模型全球竞速。可灵 AI 技术领先 Sora,获马斯克、MIT 科技评论等国际认可。 小白福音 Trickle:一键部署、无需 API,能直接克隆 Claude 聊天体验。面向非开发者,帮助快速从创意→上线,打通完整产品流程。模板丰富,涵盖问卷、小游戏、互动课程等多种场景。 拓竹 H2D 多才多艺:精度提升一个数量级,打印成品可直接使用。集成 3D 打印、激光雕刻、刀切、彩绘,支持双头多色打印。搭载视觉摄像头和神经算法,实现微米级精度。
2025-03-27
3月26日至今AI圈有哪些新闻
以下是 3 月 26 日至今 AI 圈的部分新闻: 3 月 26 日: 【AI 模型及应用】OpenAI 推出 GPT4o 图像生成能力;谷歌发布 Gemini 2.5 Pro Experimental 模型;Trea 已内置 DeepSeekV30324。 【AI 音乐】昆仑万维发布全球首款音乐推理大模型 Mureka O1。 【AI 视频】混元 Portrait 实现音频视频驱动图片肖像形成动画;PPVCtrl 推出新可控制视频生成模型。 【AI 3D】Vibe Draw 可通过草图进行 3D 建模;PhysTwin 通过视频创建交互式物理数字孪生;GroomLight 用于重打光的人体头发外观建模的混合逆向渲染。 3 月 27 日: 《》:MCP(Model Context Protocol)是由 Anthropic 推出的开放协议,迅速垄断了 Agentic AI 的中间层,类似于 AI 应用的 USBC 端口。它简化了开发者与数据源的整合,让 AI 应用无缝连接各种工具和服务。MCP 不仅促进了生态的形成,甚至可能成为“Agentic AI 领域的 Stripe”,为未来 AI 应用的标准化革命奠定基础。 《》:Howie.Serious 与 Indigo 探讨了费曼学习法与 AI 创作的结合,强调“输出能迫使知识内化”。两位终身学习者分享了如何通过高效利用 AI 提升写作与学习,推动思维深度,指出未来的 AI Agent 应具备更强的自动化整合能力,助力人类保持独特价值与创造力。“真正的深度与灵感,源于人类富有情境的问题。” 《》:消费级 AI 正迎来临界点,推动一波又一波的变革。随着基础模型成本降低和多模态技术进步,新的消费类 AI 公司如雨后春笋般涌现。未来,AI 将重塑旅行、购物和社交体验,提升个性化服务的准确性与便利性。正如报告所言:“AI 的进步既是开创新产品的源动力,也是消费巨头崛起的分销载体。” 3 月 26 日: AI 商业爆发年:可灵 AI 营收破亿元,AIGC 营销素材日均消耗超 3000 万元。快手将 AI 作为生态重塑核心,引领视频生成模型全球竞速。可灵 AI 技术领先 Sora,获马斯克、MIT 科技评论等国际认可。 小白福音 Trickle:一键部署、无需 API,能直接克隆 Claude 聊天体验。面向非开发者,帮助快速从创意→上线,打通完整产品流程。模板丰富,涵盖问卷、小游戏、互动课程等多种场景。 拓竹 H2D 多才多艺:精度提升一个数量级,打印成品可直接使用。集成 3D 打印、激光雕刻、刀切、彩绘,支持双头多色打印。搭载视觉摄像头和神经算法,实现微米级精度。 Figure 人形机器人新突破。
2025-03-27
最近的AI新闻
以下是近期的 AI 新闻汇总: 3 月 12 日: 【AI 3D】 BlenderMCP:与 Claude AI 沟通,在 Blender 实现快速 3D 建模。 MIDI:单幅图像到 3D 场景生成。 Move AI:更新动作捕捉能力,提出 Gen 2 Spatial Motion。 【AI 写作】 MMStoryAgent:AI 多模态故事生成系统。 【AI 视频】 VACE:阿里推出一体化视频创作和编辑技术。 VideoPainter:腾讯开源视频编辑技术。 Wonder Dynamics:推出摄像机轨道(Camera Track)和清洁板(Clean Plate)功能。 【其他】 OpenAI:为开发者推出一套 AI Agent 开发套件。 R1Omni:阿里情感识别模型,通过视频识别情感。 Luma AI:发布一种新的预训练范式 IMM,旨在突破算法瓶颈,提高生成预训练算法的性能。 Manus:宣布与阿里通义千问团队达成战略合作。 3 月 14 日: 【AI 模型及其他】 谷歌:Gemini 应用能力升级,包含升级推理模型 gemini 2.0 Flash Thinking Experimental 等多个功能提升。 OpenAI:4 项更新。 Bolt:一键将 Figma 设计转换为可运行的 Web 应用。 阿里:推出 AI 旗舰应用“新夸克”。 360 智脑团队:开源推理模型 LightR114BDS,复现 Deepseek 的强化学习效果。 【AI 视频】 Pika:更新 Pikaffects,新增多款变身特效。 Freepik 与 Fal 平台:引入 Topaz AI 的提升“FPS 和视频分辨率”能力。 Krea:上线 Veo 2 模型,支持图生视频功能,但生成成本较高。 【AI 绘图】 LBM:用于快速图像到图像转换的潜在桥匹配方法,支持可控图像重新照明、角色去除和图像修复。 【AI 语音】 Sesame:开源 TTS 语音模型 CSM1B。 3 月 26 日: 【AI 模型及应用】 OpenAI:推出 GPT4o 图像生成能力。 谷歌:发布 Gemini 2.5 Pro Experimental 模型。 Trea:已内置 DeepSeekV30324。 【AI 音乐】 昆仑万维:发布全球首款音乐推理大模型 Mureka O1。 【AI 视频】 混元 Portrait:音频视频驱动图片肖像形成动画。 PPVCtrl:新可控制视频生成模型。 【AI 3D】 Vibe Draw: 草图进行 3D 建模。 PhysTwin:通过视频创建交互式物理数字孪生。 GroomLight:用于重打光的人体头发外观建模的混合逆向渲染。
2025-03-26
如何订阅最新的ai新闻
以下是一些订阅最新 AI 新闻的途径: 公众号: “超时空视角”:提供 AI 资讯。 猫叔个人公众号“AI 替代人类”。 “歸藏的 AI 工具箱”:有 AI 课程撰写与信息收集整理,适合 AI 从业人员或想加入该领域工作的人,免费订阅可获得日常内容更新,付费会员可获得更多服务,如记录上周值得关注的 AI 领域主要发布、核心从业者需要关注的 AI 动态、涉及各个 AI 领域的优质内容、过去一周最重要的研究论文和简短解读介绍,还能加入核心粉丝群获得最及时的 AI 资讯通知和优先工作撮合机会。 小红书/抖音:“EverAI”。 B 站:“Ever AI 酱”,这里会有教程及 AI 工具界面操作。
2025-03-24