- 《Sora 2 惊现 LLM 推理能力,视频生成模型也能搞推理?》视频模型Sora 2竟能做科学推理题,还在GPQA Diamond测试中拿到55%的成绩,虽逊于GPT - 5,但着实让人好奇!Epoch AI实验发现,它可能借助LLM重写提示词答题,网友也从“Juice”参数等线索推测其使用OpenAI推理模型。独立研究者stacy进一步测试,Sora 2在视觉类比、地理知识、图像识别等任务中表现亮眼。Google DeepMind研究还表明,视频模型经大量训练或获推理能力,有望成为通向AGI的新途径,为AI发展带来新思路!

- 《AI 应用支出报告:创业资金真正流向何方》想知道哪些AI初创公司真能赚钱?a16z联合Mercury,基于超20万客户支付数据给出答案。OpenAI和Anthropic在通用助手类拔得头筹,创意工具领域10家公司崭露头角,Vibe编程工具快速打入企业。横向应用稍多于纵向,近70%产品从C端迈向企业。这一榜单不仅呈现了AI应用落地趋势,还表明AI正重塑工作技能与团队结构,为行业发展和投资方向提供了关键洞察。

- 《面对 Agent 红海,依旧有惊喜|Kimi OK Computer 实测》Kimi 内测通用 Agent 新品「OK Computer」,能否带来惊喜?作者通过实测一探究竟。在网页应用开发中,它设计的宝可梦游戏系统较完整,和 Manus、Lovable 各有优劣;处理复杂数据可视化任务时,对 IMDb 数据集的分析维度多元,可视化效果出色;在 PPT 设计与个人博客开发上也有亮点,不过存在小问题。「OK Computer」借助端到端强化学习,展现独特优势,对普通 AI 用户来说,是个不错的全栈 AI 助理,值得一试。



