EP64 · Agent 记忆原语、Qwen3 基座突围、评委即未来 · 05-22 早报 - Gino Notes

精讲一：用于自学习自主 Agents 的 Memory 与 Dreaming [视频]

来自 Claude Anthropic 工程师 Ravi 首次公开「Memory」与「Dreaming」两项平台原语：Memory 把 Agent 经验建模为虚拟文件系统，让 Agent 跨会话保留知识并通过乐观并发控制安全共享；Dreaming 则在后台异步整合碎片记忆、消除多 Agent 团队的重复学习。企业案例惊人——Rakuten 首次执行错误率下降 97%。这是 Anthropic 在「长程自主智能体」上迄今最具体的架构路径。

精讲二：Qwen3.7-Max 重新定义 AI Agent 基座

来自通义大模型通义实验室的 Qwen3.7-Max 在 35 小时连续执行、1158 次工具调用零中断的极限测试中展示出国产最强 Agent 基座能力：解耦训练架构让其跨框架泛化，在长程 Agentic 稳定性上超越 Claude 3.7 Sonnet 与 GPT-4.1。国内大模型竞争已从「问答分数」转向「长程 Agent 稳定性」，这是该赛道迄今最有力的一次宣言。

精讲三：自动化之后

来自 Every Every 创始人 Dan Shipper 的反直觉洞察：AI 越普及，对人类专家判断力的需求反而越高。AI 批量制造同质化输出，让「评估哪份更好」变成新稀缺；Codex 写代码，但能鉴别对错的工程师更值钱。自动化的终点不是消灭工作，而是把人类角色推向「评委与压舱石」这一最后被商品化的层级。

速览

更多值得关注的内容

· 为智能体配备计算机 — Ivan Burazin，Daytona — Latent Space

· Railway：面向智能体的原生云平台 — Jake Cooper — Latent Space

· 腾讯混元全新翻译模型 Hy-MT2 开源，小程序「腾讯 Hy 翻译」开放体验 — 腾讯混元

· 选择正确模型：LLM Evals 与优化的数据驱动指南 [视频] — Claude

· Google 推出 Android CLI，让 Android 工具链对 AI 智能体更友好 — InfoQ

· 下一代大模型推理网络架构：ZCube 如何有效破解网络瓶颈？ — 智谱

· 苏姿丰上海开讲：AI 正在重新定义计算的每一层 — 量子位

补充阅读

今天额外值得一读的几条

· OpenAI 模型推翻 80 年数学猜想，AI 首次实现科学发现 — Wes Roth(@WesRothMoney)

· OpenAI — OpenAI Blog

· QQ 音乐 Harness Engineering 实践 — 腾讯云开发者

· 构建最强 Agentic Analytics Harness：由 Claude 驱动，用 Claude Code 打造 [视频] — Claude

· A²I² 的讽刺性悖论 — InfoQ

· 提示工程还不够——我构建了一个可在生产环境中运行的控制层 — Towards Data Science

· 都是 AI Coding，为什么 Java 体验差了一个量级？五条方法论帮你构建自己的 Harness 环境 — 阿里云开发者

· 发布 ADK for Kotlin 和 ADK for Android 0.1.0：在 Android 及更广平台上构建 AI 智能体 — Google Developers Blog

· 合成人格预训练：从零标记开始的对齐 — LessWrong — LessWrong

· 编码智能体的可维护性传感器 — Martin Fowler

· 来自 Codex 官方团队的分享：如何把 Codex 用到极致 — 宝玉的分享

· Ramp 工程师如何借助 Codex 加速代码审查 — OpenAI Blog

· 当 Agent 真正走进复杂数据分析场景：DataClawBench 用 492 个真实任务，给前沿模型做了一次过程级体检 — AI 前线

· LLM 主题并非观察结果 — Towards Data Science

· 在 VS Code 中烹饪 Agents | Liam Hampton，Microsoft [视频] — AI Engineer

· 会自动交易的交易信号：在系统化投资中规模化受治理的 AI [视频] — Claude

精讲一：用于自学习自主 Agents 的 Memory 与 Dreaming [视频]

精讲二：Qwen3.7-Max 重新定义 AI Agent 基座

精讲三：自动化之后

速览

补充阅读

相关链接