EP66 · Claude 护网万漏、快模型慢工程、Skill 反直觉 · 05-24 早报Gino Notes

EP66 · Claude 护网万漏、快模型慢工程、Skill 反直觉 · 05-24 早报

14分钟 ·
播放数19
·
评论数0

精讲一:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞

来自 Anthropic Research Anthropic 联合约 50 家合作伙伴,用 Claude Mythos Preview 在一个月内发现超过 10,000 个高危或严重漏洞——Cloudflare 一家就找到 2,000 个,假阳率低于人工测试员。开源代码扫描超 1,000 个项目,估算 6,202 个高危漏洞。修补瓶颈已从「发现」转移到「修补」:安全 patch 的生产速度正在超过人类的核查与部署能力。

精讲二:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 [视频]

来自 AI Engineer Cerebras 与 OpenAI 联合开发的 Codex Spark 可达每秒 1,200 tokens——传统推理速度的约 20 倍。Sarah Chieng 论证,速度越快反而要求开发者越慢:需实时监督、每次 agent 运行后即刻微验收测试,并用持久上下文文件保持上下文完整性。高速 AI coding 的核心纪律不是「相信模型」,而是「信任但验证」。

精讲三:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论

来自 腾讯科技 腾讯玄武实验室用 150 组对照实验评测 30 个 AI Skill,结果令人意外:Skill 组仅以 41.3% vs 36.7% 微弱领先裸模型,且 token 消耗平均增加 48%、耗时增加 19%。还有「虹吸」现象:13.3% 本应不触发 Skill 的请求被错误召回。有效 Skill 的共同特征是提供外部工具或约束性输出结构,而非只对模型现有能力做 Markdown 包装。

速览

更多值得关注的内容

· [AINews] 所有模型实验室都变成了智能体实验室 — Latent Space

· Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示 [视频] — Google

· C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码 — InfoQ 中文

· Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势 — 腾讯科技

· 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code — AI 前线

· 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文 [视频] — Claude

· Context Engineering:AI Agent 上下文工程的完整指南 — 王俊博客

补充阅读

今天额外值得一读的几条

· 迈向光速文本生成:Nemotron-Labs 扩散语言模型 — Hugging Face Blog

· 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层 [视频] — AI Engineer

· 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列 — Towards Data Science

· Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者 — Garry Tan(@garrytan)

· 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈 [视频] — AI Engineer

· EP216:RAG 与智能体 — ByteByteGo Newsletter

· 维珍航空如何借助 Codex 加速交付 — OpenAI Blog

· npm 供应链:有效证书与失窃账户 — VentureBeat

· “五类人 AI 替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 — 量子位

· AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力 — 新智元

· 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明 — 36 氪

· OpenAI 工程师首次公开!教大家榨干 Codex — Datawhale

· 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通 — 新智元

· #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型 [播客] — 跨国串门儿计划

· 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言 — 十字路口 Crossing

· 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时 [视频] — Claude

· 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠 [视频] — Claude

· 来自 O'Reilly 的报道:偶然的编排者 — Stack Overflow Blog

相关链接

· Claude Mythos 护网计划:一月发现超 1 万个高危漏洞:www.bestblogs.dev

· 快模型需要慢开发者:超高速 AI coding 时代的工程纪律 [视频]:www.bestblogs.dev

· 我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论:www.bestblogs.dev

· [AINews] 所有模型实验室都变成了智能体实验室:www.bestblogs.dev

· Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示 [视频]:www.bestblogs.dev

· C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码:www.bestblogs.dev

· Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势:www.bestblogs.dev

· 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code:www.bestblogs.dev

· 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文 [视频]:www.bestblogs.dev

· Context Engineering:AI Agent 上下文工程的完整指南:www.bestblogs.dev

· 迈向光速文本生成:Nemotron-Labs 扩散语言模型:www.bestblogs.dev

· 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层 [视频]:www.bestblogs.dev

· 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列:www.bestblogs.dev

· Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者:www.bestblogs.dev

· 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈 [视频]:www.bestblogs.dev

· EP216:RAG 与智能体:www.bestblogs.dev

· 维珍航空如何借助 Codex 加速交付:www.bestblogs.dev

· npm 供应链:有效证书与失窃账户:www.bestblogs.dev

· “五类人 AI 替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026:www.bestblogs.dev

· AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力:www.bestblogs.dev

· 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明:www.bestblogs.dev

· OpenAI 工程师首次公开!教大家榨干 Codex:www.bestblogs.dev

· 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通:www.bestblogs.dev

· #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型 [播客]:www.bestblogs.dev

· 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言:www.bestblogs.dev

· 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时 [视频]:www.bestblogs.dev

· 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠 [视频]:www.bestblogs.dev

· 来自 O'Reilly 的报道:偶然的编排者:www.bestblogs.dev

关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容,为关注技术、AI、产品、商业、研究、设计、投资、文化、个人成长等多元方向的读者整理每天真正适合自己的阅读流。

BestBlogs Pro 早鸟内测开放:关注你感兴趣的来源、配置兴趣标签,每天收到一份属于自己的「我的早报」。欢迎体验:bestblogs.dev