EP66 · Claude 护网万漏、快模型慢工程、Skill 反直觉 · 05-24 早报 - Gino Notes

精讲一：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

来自 Anthropic Research Anthropic 联合约 50 家合作伙伴，用 Claude Mythos Preview 在一个月内发现超过 10,000 个高危或严重漏洞——Cloudflare 一家就找到 2,000 个，假阳率低于人工测试员。开源代码扫描超 1,000 个项目，估算 6,202 个高危漏洞。修补瓶颈已从「发现」转移到「修补」：安全 patch 的生产速度正在超过人类的核查与部署能力。

精讲二：快模型需要慢开发者：超高速 AI coding 时代的工程纪律 [视频]

来自 AI Engineer Cerebras 与 OpenAI 联合开发的 Codex Spark 可达每秒 1,200 tokens——传统推理速度的约 20 倍。Sarah Chieng 论证，速度越快反而要求开发者越慢：需实时监督、每次 agent 运行后即刻微验收测试，并用持久上下文文件保持上下文完整性。高速 AI coding 的核心纪律不是「相信模型」，而是「信任但验证」。

精讲三：我们用 150 个任务测试了 30 个 skill，跑出 7 个反直觉结论

来自腾讯科技腾讯玄武实验室用 150 组对照实验评测 30 个 AI Skill，结果令人意外：Skill 组仅以 41.3% vs 36.7% 微弱领先裸模型，且 token 消耗平均增加 48%、耗时增加 19%。还有「虹吸」现象：13.3% 本应不触发 Skill 的请求被错误召回。有效 Skill 的共同特征是提供外部工具或约束性输出结构，而非只对模型现有能力做 Markdown 包装。

速览

更多值得关注的内容

· [AINews] 所有模型实验室都变成了智能体实验室 — Latent Space

· Google Anti-gravity 2.0：以智能体为中心的开发平台和 OS 演示 [视频] — Google

· C++ 之父开撕 AI Coding：资深开发者宁愿退休也不愿伺候 AI 生成的代码 — InfoQ 中文

· Multi-Agent 火了，但 AI 的组织病还没人治｜Hao 好聊趋势 — 腾讯科技

· 模型之外，皆属 Harness！DeepSeek 终于出手：招人、组队、从零造一个中国版 Claude Code — AI 前线

· 会记忆的智能体：Memory Stores 与 Dreaming 如何支撑长期上下文 [视频] — Claude

· Context Engineering：AI Agent 上下文工程的完整指南 — 王俊博客

补充阅读

今天额外值得一读的几条

· 迈向光速文本生成：Nemotron-Labs 扩散语言模型 — Hugging Face Blog

· 智能体蜂群缺失的原语：软件工厂、VM 隔离与 CLI 协调层 [视频] — AI Engineer

· 企业文档智能：从最小原型到海量语料，逐块构建 RAG 系列 — Towards Data Science

· Bob McGrew 的框架：AI 时代的唯二工作——孤独天才与管理者 — Garry Tan(@garrytan)

· 从 Prompt 到 Pipeline：Google AI Studio、生成式媒体与 Gemma 4 本地模型栈 [视频] — AI Engineer

· EP216：RAG 与智能体 — ByteByteGo Newsletter

· 维珍航空如何借助 Codex 加速交付 — OpenAI Blog

· npm 供应链：有效证书与失窃账户 — VentureBeat

· “五类人 AI 替代不了，企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 — 量子位

· AI 编程进入下半场！新基准不测补丁，拷问真正的工程能力 — 新智元

· 拆解 Anthropic：最好的 AI 公司，可能也是一种组织发明 — 36 氪

· OpenAI 工程师首次公开！教大家榨干 Codex — Datawhale

· 企业养虾时代开启？Anthropic 连夜更新架构，中国大厂已经跑通 — 新智元

· #550. AI 资本市场狂热：Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型 [播客] — 跨国串门儿计划

· 英伟达科学家的 20 分钟演讲：机器人终局，2040 预言 — 十字路口 Crossing

· 如何拆解一个膨胀的智能体：工具、技能、子智能体与托管运行时 [视频] — Claude

· 用 evals 训练品味：让幻灯片生成智能体从感觉还行走向可靠 [视频] — Claude

· 来自 O'Reilly 的报道：偶然的编排者 — Stack Overflow Blog

精讲一：Claude Mythos 护网计划：一月发现超 1 万个高危漏洞

精讲二：快模型需要慢开发者：超高速 AI coding 时代的工程纪律 [视频]

精讲三：我们用 150 个任务测试了 30 个 skill，跑出 7 个反直觉结论

速览

补充阅读

相关链接