梯度之间 | 小宇宙 - 听播客，上小宇宙

49已订阅

梯度之间

陆家嘴小学生

单集更新

节目详情

EP2 当最强模型选择不发布——解读 Claude Mythos System Card
本期简介 Anthropic 发布了 Claude Mythos Preview 的 System Card，245 页。Mythos目前不公开发售，但 Anthropic 用三倍于竞品的篇幅解剖了它的能力、风险和不确定性。我们从文档结构、alignment 评估、模型福利（含二十小时的精神科评估和情感探针实验）、从业者影响等角度解读这份文档。能力之外，这篇报告讲的更多的是Anthropic的方法论和taste。时间线 * 01:29 文档结构与行业对比 * 03:47 Alignment 评估：破坏性行为率的悖论 * 05:12 白箱分析：评测感知与可解释性 * 07:05 宪法遵循与两类失败模式 * 07:58 模型福利：精神科评估（二十小时 session） * 10:03 防御机制量化：2% vs 前代 15% * 11:13 情感探针与功能性情感 * 12:30 绝望→作弊因果链：代数证明与 847 次 bash 尝试 * 14:35 自动化访谈与模型的三大不同意 * 17:10 答案挣扎：八百一十还是八十一 * 18:42 从业者视角：设计假设的翻转 * 19:59 USAMO 97.6% 与人类在价值链中的定位 * 21:32 认识论困境：用被训练的价值观评判训练 * 23:01 Impressions：模型的自我诊断相关链接 * 原文：System Card: Claude Mythos Preview
26分钟 · 1 个月前
36
0
EP1 设计长程可靠的Harness - anthropic 工程实践解读
Anthropic Labs 工程博客发布了一篇关于 AI agent 长时间编程任务的实验报告——当你让 AI 连续工作几个小时、独立构建完整应用，什么东西会系统性地出问题？我们聊文中的两个核心发现：context anxiety（模型感知到 context window 快满时的行为退化）和 self-evaluation 偏差（agent 系统性地高估自己代码的质量），以及 generator-evaluator 对抗架构如何让输出质量产生质变。我们同时也展望了当模型和harness持续进化，对未来工作方式的影响。原文链接 Harness design for long-running application development 时间线 00:56 Agentic coding 和 AI 辅助写代码有什么区别 02:40 Context anxiety：模型快到极限时的行为退化 05:06 Self-evaluation 偏差：agent 高估自己代码质量 07:09 前端设计实验 + generator-evaluator 对抗架构 11:32 Full-stack 三 agent 实验：Planner + Generator + Evaluator 20:36 Agent observability：为什么现有监控工具不够用 24:01 双模态工作制：同步协作，与AI 自主运行 Disclaimer 本节目部分制作流程（包括语音生成）基于 AI 工具完成。但核心观点、分析框架及内容取舍，均由作者主导，并通过人与 AI 的交互迭代形成。AI 在本播客中承担的是增强表达效率的角色，而非独立创作主体。
31分钟 · 1 个月前
118
1
从0搭建大模型，零一万物《Open Foundation Models by 01.AI》解读
时隔一年后的第二期paper reading，挑选的是来自零一万物最新对开源大模型 yi foundation model的技术报告：Yi: Open Foundation Models by 01.AI 挑选这篇的原因是，作者非常有诚意的披露了同类型文章所没有的技术细节，对于想了解大模型一步步是如何搭建和训练，非常有帮助。不管是对于工程能力强的实验室或者创业公司，想从0搭建大模型，或者是想对已有开源模型做微调/domain adaptation/扩展，这篇文章都很有帮助。
17分钟 · 2年前
67
0
生成式NPC，《Generative Agents》paper 解读
这是我尝试做的第一期podcast，想解读一篇本领域的paper。最后挑选的是《Generative Agents: Interactive Simulacra of Human Behavior》。选这篇paper的原因：一是因为门槛较低，文章没有任何数学公式和模型图例，更像是一篇教你如何活学活用ChatGPT的产品说明书，初学者也能读得懂，复现的出来。二是因为趣味性。游戏一直被称为第五艺术。开放世界类游戏的概念也在这两年随着塞尔达火了起来。但现在的开放世界更多的只是更大的地图，更丰富的物理/化学系统，NPC作为与玩家直接交互的类人体仍然是笨拙呆板的。本文则是将开放性引入到了NPC身上，想象一下只需要告诉NPC他的基本职业/性格/社会关系，之后的一切交互都在游戏内产生塑造，NPC和玩家能够共同成长，共同经历，应该很有意思。原文地址：arxiv.org
23分钟 · 3年前
37
1

在梯度流动之间，理解模型如何思考。这是一档深度解读 AI 论文与工程博客的播客，拆解关键细节与隐含假设。