知识库精选-2026年1月11日-WayToAGI

《英伟达GDPO论文解读：多奖励强化学习的正确打开方式》当AI追求多目标时，传统GRPO算法竟会“失灵”？NVIDIA论文揭示，GRPO把多奖励加总后归一化，让不同奖励组合“崩塌”为相同评分，导致AI迷失方向。全新GDPO算法闪亮登场，它分别归一化各奖励再加总，如“分科打分再汇总”，保留关键信息。通过多项任务验证，GDPO的效果显著提升，还巧妙借助条件奖励解决了权重难题，为实现更精细、可控的AI迈出关键一步。
《AI模型那么多，你是靠什么做选择呢？总不能是网络热度吧》AI模型频出，为何有人能快速判断优劣，你却只能等别人测评？关键在于是否建立自己的判断标准，Anthropic发布的文章为你揭秘。首先明确判断对象，再依任务类型选判断方式，区分能力与回归评估目的，了解“毕业”机制与评估指标。按照8步路线图搭建评估体系，结合多层防护，就可以建立自己的标准。
《“中国CES”1500+ AI硬件全整理！WaytoAGI带你逛阿里云通义智能硬件展》错过美国CES 2026别遗憾，“中国版CES”——阿里云通义智能硬件展不容错过！1月8-11日深圳开展，220 多家企业携 1500 多件展品亮相，众多新品首发。在这里，能看到会“看”世界的AI眼镜、多功能打印机等新奇产品，还有萌趣的AI陪伴玩具、实用的智能家居设备。展会夜场的思想交流与创作比拼也超有料。正如黄仁勋所言，AI下一个战场在物理世界，中国正积极参与这场变革，快来一同感受AI带来的奇妙变化吧！
《喝点VC｜YC 内部内部复盘：AI 正在进入稳定期，并逐渐形成一套可复用的AI原生公司构建路径》想洞悉AI经济的发展脉络？来Y Combinator这档节目一探究竟！AI经济格局逐渐稳定，模型、应用与基础设施层清晰分化。令人意外的是，Anthropic 超越 OpenAI，成为YC创始人最爱用的API。虽现算力过剩与资本热投，但这更像基础设施泡沫，并非AI价值尽头。未来竞争将从模型能力转向产品应用，当下也是初创公司发展的机遇期，速来围观！
《五步框架：把 Workflow 变成可进化的 Skill》在AI任务执行方式的探讨中，workflow与Agent+Skills谁更胜一筹？作者宝玉认为多数workflow场景可被Agent+Skills取代。workflow虽有确定性，但在复杂逻辑处理、灵活性及移植性上表现欠佳。而Agent + Skills通过拆分、编排、存储、分摊、迭代五步框架，不仅能实现复杂任务，还具备持续进化优势，或许是一个可值得探索的自动化方案！