

EP2 当最强模型选择不发布——解读 Claude Mythos System Card本期简介 Anthropic 发布了 Claude Mythos Preview 的 System Card,245 页。Mythos目前不公开发售,但 Anthropic 用三倍于竞品的篇幅解剖了它的能力、风险和不确定性。我们从文档结构、alignment 评估、模型福利(含二十小时的精神科评估和情感探针实验)、从业者影响等角度解读这份文档。能力之外,这篇报告讲的更多的是Anthropic的方法论和taste。 时间线 * 01:29 文档结构与行业对比 * 03:47 Alignment 评估:破坏性行为率的悖论 * 05:12 白箱分析:评测感知与可解释性 * 07:05 宪法遵循与两类失败模式 * 07:58 模型福利:精神科评估(二十小时 session) * 10:03 防御机制量化:2% vs 前代 15% * 11:13 情感探针与功能性情感 * 12:30 绝望→作弊因果链:代数证明与 847 次 bash 尝试 * 14:35 自动化访谈与模型的三大不同意 * 17:10 答案挣扎:八百一十还是八十一 * 18:42 从业者视角:设计假设的翻转 * 19:59 USAMO 97.6% 与人类在价值链中的定位 * 21:32 认识论困境:用被训练的价值观评判训练 * 23:01 Impressions:模型的自我诊断 相关链接 * 原文:System Card: Claude Mythos Preview
EP1 设计长程可靠的Harness - anthropic 工程实践解读Anthropic Labs 工程博客发布了一篇关于 AI agent 长时间编程任务的实验报告——当你让 AI 连续工作几个小时、独立构建完整应用,什么东西会系统性地出问题? 我们聊文中的两个核心发现:context anxiety(模型感知到 context window 快满时的行为退化)和 self-evaluation 偏差(agent 系统性地高估自己代码的质量),以及 generator-evaluator 对抗架构如何让输出质量产生质变。我们同时也展望了当模型和harness持续进化,对未来工作方式的影响。 原文链接 Harness design for long-running application development 时间线 00:56 Agentic coding 和 AI 辅助写代码有什么区别 02:40 Context anxiety:模型快到极限时的行为退化 05:06 Self-evaluation 偏差:agent 高估自己代码质量 07:09 前端设计实验 + generator-evaluator 对抗架构 11:32 Full-stack 三 agent 实验:Planner + Generator + Evaluator 20:36 Agent observability:为什么现有监控工具不够用 24:01 双模态工作制:同步协作,与AI 自主运行 Disclaimer 本节目部分制作流程(包括语音生成)基于 AI 工具完成。但核心观点、分析框架及内容取舍,均由作者主导,并通过人与 AI 的交互迭代形成。AI 在本播客中承担的是增强表达效率的角色,而非独立创作主体。
从0搭建大模型,零一万物《Open Foundation Models by 01.AI》解读时隔一年后的第二期paper reading,挑选的是来自零一万物最新对开源大模型 yi foundation model的技术报告:Yi: Open Foundation Models by 01.AI 挑选这篇的原因是,作者非常有诚意的披露了同类型文章所没有的技术细节,对于想了解大模型一步步是如何搭建和训练,非常有帮助。不管是对于工程能力强的实验室或者创业公司,想从0搭建大模型,或者是想对已有开源模型做微调/domain adaptation/扩展,这篇文章都很有帮助。
生成式NPC, 《Generative Agents》paper 解读这是我尝试做的第一期podcast,想解读一篇本领域的paper。最后挑选的是《Generative Agents: Interactive Simulacra of Human Behavior》。选这篇paper的原因: 一是因为门槛较低,文章没有任何数学公式和模型图例,更像是一篇教你如何活学活用ChatGPT的产品说明书,初学者也能读得懂,复现的出来。 二是因为趣味性。游戏一直被称为第五艺术。开放世界类游戏的概念也在这两年随着塞尔达火了起来。但现在的开放世界更多的只是更大的地图,更丰富的物理/化学系统,NPC作为与玩家直接交互的类人体仍然是笨拙呆板的。本文则是将开放性引入到了NPC身上,想象一下只需要告诉NPC他的基本职业/性格/社会关系,之后的一切交互都在游戏内产生塑造,NPC和玩家能够共同成长,共同经历,应该很有意思。 原文地址:arxiv.org