

EP66 · Claude 护网万漏、快模型慢工程、Skill 反直觉 · 05-24 早报精讲一:Claude Mythos 护网计划:一月发现超 1 万个高危漏洞 来自 Anthropic Research Anthropic 联合约 50 家合作伙伴,用 Claude Mythos Preview 在一个月内发现超过 10,000 个高危或严重漏洞——Cloudflare 一家就找到 2,000 个,假阳率低于人工测试员。开源代码扫描超 1,000 个项目,估算 6,202 个高危漏洞。修补瓶颈已从「发现」转移到「修补」:安全 patch 的生产速度正在超过人类的核查与部署能力。 精讲二:快模型需要慢开发者:超高速 AI coding 时代的工程纪律 [视频] 来自 AI Engineer Cerebras 与 OpenAI 联合开发的 Codex Spark 可达每秒 1,200 tokens——传统推理速度的约 20 倍。Sarah Chieng 论证,速度越快反而要求开发者越慢:需实时监督、每次 agent 运行后即刻微验收测试,并用持久上下文文件保持上下文完整性。高速 AI coding 的核心纪律不是「相信模型」,而是「信任但验证」。 精讲三:我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论 来自 腾讯科技 腾讯玄武实验室用 150 组对照实验评测 30 个 AI Skill,结果令人意外:Skill 组仅以 41.3% vs 36.7% 微弱领先裸模型,且 token 消耗平均增加 48%、耗时增加 19%。还有「虹吸」现象:13.3% 本应不触发 Skill 的请求被错误召回。有效 Skill 的共同特征是提供外部工具或约束性输出结构,而非只对模型现有能力做 Markdown 包装。 速览 更多值得关注的内容 · [AINews] 所有模型实验室都变成了智能体实验室 — Latent Space · Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示 [视频] — Google · C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码 — InfoQ 中文 · Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势 — 腾讯科技 · 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code — AI 前线 · 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文 [视频] — Claude · Context Engineering:AI Agent 上下文工程的完整指南 — 王俊博客 补充阅读 今天额外值得一读的几条 · 迈向光速文本生成:Nemotron-Labs 扩散语言模型 — Hugging Face Blog · 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层 [视频] — AI Engineer · 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列 — Towards Data Science · Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者 — Garry Tan(@garrytan) · 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈 [视频] — AI Engineer · EP216:RAG 与智能体 — ByteByteGo Newsletter · 维珍航空如何借助 Codex 加速交付 — OpenAI Blog · npm 供应链:有效证书与失窃账户 — VentureBeat · “五类人 AI 替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026 — 量子位 · AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力 — 新智元 · 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明 — 36 氪 · OpenAI 工程师首次公开!教大家榨干 Codex — Datawhale · 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通 — 新智元 · #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型 [播客] — 跨国串门儿计划 · 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言 — 十字路口 Crossing · 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时 [视频] — Claude · 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠 [视频] — Claude · 来自 O'Reilly 的报道:偶然的编排者 — Stack Overflow Blog 相关链接 · Claude Mythos 护网计划:一月发现超 1 万个高危漏洞:https://www.bestblogs.dev/article/3eeb7cb3 · 快模型需要慢开发者:超高速 AI coding 时代的工程纪律 [视频]:https://www.bestblogs.dev/video/fe5bc07 · 我们用 150 个任务测试了 30 个 skill,跑出 7 个反直觉结论:https://www.bestblogs.dev/article/808f49ac · [AINews] 所有模型实验室都变成了智能体实验室:https://www.bestblogs.dev/article/97809db8 · Google Anti-gravity 2.0:以智能体为中心的开发平台和 OS 演示 [视频]:https://www.bestblogs.dev/video/aa588cd · C++ 之父开撕 AI Coding:资深开发者宁愿退休也不愿伺候 AI 生成的代码:https://www.bestblogs.dev/article/f195e3e0 · Multi-Agent 火了,但 AI 的组织病还没人治|Hao 好聊趋势:https://www.bestblogs.dev/article/4e8c22e7 · 模型之外,皆属 Harness!DeepSeek 终于出手:招人、组队、从零造一个中国版 Claude Code:https://www.bestblogs.dev/article/166b15e1 · 会记忆的智能体:Memory Stores 与 Dreaming 如何支撑长期上下文 [视频]:https://www.bestblogs.dev/video/f61675f · Context Engineering:AI Agent 上下文工程的完整指南:https://www.bestblogs.dev/article/306e067a · 迈向光速文本生成:Nemotron-Labs 扩散语言模型:https://www.bestblogs.dev/article/259ec643 · 智能体蜂群缺失的原语:软件工厂、VM 隔离与 CLI 协调层 [视频]:https://www.bestblogs.dev/video/91a1b23 · 企业文档智能:从最小原型到海量语料,逐块构建 RAG 系列:https://www.bestblogs.dev/article/fde3ee99 · Bob McGrew 的框架:AI 时代的唯二工作——孤独天才与管理者:https://www.bestblogs.dev/status/2058190873758990673 · 从 Prompt 到 Pipeline:Google AI Studio、生成式媒体与 Gemma 4 本地模型栈 [视频]:https://www.bestblogs.dev/video/b3b0472 · EP216:RAG 与智能体:https://www.bestblogs.dev/article/8bdb40d5 · 维珍航空如何借助 Codex 加速交付:https://www.bestblogs.dev/article/44ac0848 · npm 供应链:有效证书与失窃账户:https://www.bestblogs.dev/article/b0341291 · “五类人 AI 替代不了,企业做第二名最稳妥” | 昆仑万维方汉@AIGC2026:https://www.bestblogs.dev/article/2f8896ed · AI 编程进入下半场!新基准不测补丁,拷问真正的工程能力:https://www.bestblogs.dev/article/eab7c6f1 · 拆解 Anthropic:最好的 AI 公司,可能也是一种组织发明:https://www.bestblogs.dev/article/36884d7e · OpenAI 工程师首次公开!教大家榨干 Codex:https://www.bestblogs.dev/article/dc6d1c6e · 企业养虾时代开启?Anthropic 连夜更新架构,中国大厂已经跑通:https://www.bestblogs.dev/article/5a2ce060 · #550. AI 资本市场狂热:Anthropic 9000 亿估值、SpaceX 超级 IPO 与 SaaS 旧王的生死转型 [播客]:https://www.bestblogs.dev/podcast/549bbcd · 英伟达科学家的 20 分钟演讲:机器人终局,2040 预言:https://www.bestblogs.dev/article/dd5fe46e · 如何拆解一个膨胀的智能体:工具、技能、子智能体与托管运行时 [视频]:https://www.bestblogs.dev/video/16665d7 · 用 evals 训练品味:让幻灯片生成智能体从感觉还行走向可靠 [视频]:https://www.bestblogs.dev/video/445db6f · 来自 O'Reilly 的报道:偶然的编排者:https://www.bestblogs.dev/article/bebf2841 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容,为关注技术、AI、产品、商业、研究、设计、投资、文化、个人成长等多元方向的读者整理每天真正适合自己的阅读流。 BestBlogs Pro 早鸟内测开放:关注你感兴趣的来源、配置兴趣标签,每天收到一份属于自己的「我的早报」。欢迎体验:https://bestblogs.dev
EP65 · Agent 架构分叉、Notion 重新创业、GLM-5.1 · 05-23 早报精讲一:AI 智能体的未来:展望 Interrupt 2027 [视频] 来自 LangChain LangChain 在 Interrupt 2027 主题演讲中点名 Agent 生产分裂为两类:长时程知识 Agent(运行数分钟乃至数天,需要沙箱与多 Agent 协调)和亚秒延迟的客户体验 Agent(原生语音、实时交互)。同步发布 Langsmith Fleet——领域专家无需写代码即可用自然语言构建 Agent,内置 200+ 集成、7500 个长尾工具,内测结果显示商机合格率提升 240%、每位 AE 每月节省 40 小时,是「托管式 Agent 规模落地」的首批具体基准。 精讲二:Notion 创始人 Ivan Zhao:重塑公司的艺术 [视频] 来自 Sequoia Capital Notion CEO Ivan Zhao 在 Sequoia 深度对话中分享将 SaaS 公司「重新创业」的三项结构变革:以「爵士乐队模式」取代层级制,在共享上下文中高度自治协作;将人才结构重构为哑铃型,顶尖架构师把握方向,初级 IC 每人驱动 4-6 个 Coding Agent;解散 CMO 将品牌叙事嵌入产品团队。「酿啤酒 vs 造桥」隐喻精准点出为何 AI 产品开发抵制传统 PM 流程。 精讲三:GLM-5.1 高速版:400 tokens/s,顶尖模型跑出最快速度 来自 智谱 GLM-5.1 高速版将输出速度刷新至 400 tokens/s,打破「快即意味着小」的行业惯例——首次在旗舰模型上同时实现极致低延迟与顶尖能力。对 Coding Agent 尤为关键:单任务需数十轮调用,每轮慢几秒整体耗时就拉长十几分钟。速度背后是 TileRT 推理引擎的系统级优化:编译期将计算图编排为常驻 GPU 的 Engine Kernel,算子间直传寄存器,消除动态调度开销。400 TPS 是稳定生产能力,不是峰值数字。 速览 更多值得关注的内容 · Spotify 如何把 AI 开发体验扩展到团队与 Agent:Claude Code、Honk、Backstage 与 MCP [视频] — Claude · 阿里李飞飞首秀:一口气面向 Agent 发了 32 个新品 — 智东西 · 专业化胜过规模:大多数 AI 采购决策忽视的战略变量 — Hugging Face Blog · AI 原生工程 — InfoQ · Agent 核心技术概念与范式发生了哪些演变以及背后的思考 — 阿里云开发者 · 李飞飞再出手,空间智能的 ImageNet 来了 — 量子位 · OpenAI“赚一块亏一块二”,Anthropic 已开始赚钱 — 腾讯科技 补充阅读 今天额外值得一读的几条 · 从 0 到 1 搭建 Agent:Agent 原理分析及个人助手实践(长文干货) — 阿里技术 · 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率的诀窍:Mermaid 无限画布×上下文卸载 — 腾讯技术工程 · Gemini 负责人:在智能体时代从执行者转向指挥者 [视频] — Silicon Valley Girl · 你的 Coding Agent 应该做 AI 系统工程 | Ben Burtenshaw,Hugging Face [视频] — AI Engineer · Cerebras 630 亿美元 IPO 背后:Andrew Feldman 讲述晶圆级芯片、OpenAI 大单与 AI 基础设施竞赛 [视频] — No Priors · 最新对话 Claude Code 负责人:智能体时代的爆发,Anthropic 重构生产力边界 — Web3 天空之城 · 如何用 AI 构建自我改进型公司 [视频] — Y Combinator · 浏览器自动化:从 GUI 到 OpenCLI — 大淘宝技术 · 马斯克的“一人王朝”,6 月 12 日敲钟 — 腾讯科技 相关链接 · AI 智能体的未来:展望 Interrupt 2027 [视频]:https://www.bestblogs.dev/video/4b9c54d · Notion 创始人 Ivan Zhao:重塑公司的艺术 [视频]:https://www.bestblogs.dev/video/5311d2d · GLM-5.1 高速版:400 tokens/s,顶尖模型跑出最快速度:https://www.bestblogs.dev/article/d28f2131 · Spotify 如何把 AI 开发体验扩展到团队与 Agent:Claude Code、Honk、Backstage 与 MCP [视频]:https://www.bestblogs.dev/video/8860dbc · 阿里李飞飞首秀:一口气面向 Agent 发了 32 个新品:https://www.bestblogs.dev/article/644be2e3 · 专业化胜过规模:大多数 AI 采购决策忽视的战略变量:https://www.bestblogs.dev/article/ae6e5db1 · AI 原生工程:https://www.bestblogs.dev/article/9bade3d5 · Agent 核心技术概念与范式发生了哪些演变以及背后的思考:https://www.bestblogs.dev/article/5aaeed82 · 李飞飞再出手,空间智能的 ImageNet 来了:https://www.bestblogs.dev/article/7530a50d · OpenAI“赚一块亏一块二”,Anthropic 已开始赚钱:https://www.bestblogs.dev/article/31f4dae7 · 从 0 到 1 搭建 Agent:Agent 原理分析及个人助手实践(长文干货):https://www.bestblogs.dev/article/2c31657d · 腾讯云 Agent Memory 节省 61% Token 提升 52% 成功率的诀窍:Mermaid 无限画布×上下文卸载:https://www.bestblogs.dev/article/44a0ebaa · Gemini 负责人:在智能体时代从执行者转向指挥者 [视频]:https://www.bestblogs.dev/video/8543b6b · 你的 Coding Agent 应该做 AI 系统工程 | Ben Burtenshaw,Hugging Face [视频]:https://www.bestblogs.dev/video/94b7523 · Cerebras 630 亿美元 IPO 背后:Andrew Feldman 讲述晶圆级芯片、OpenAI 大单与 AI 基础设施竞赛 [视频]:https://www.bestblogs.dev/video/820f90e · 最新对话 Claude Code 负责人:智能体时代的爆发,Anthropic 重构生产力边界:https://www.bestblogs.dev/article/f3f11feb · 如何用 AI 构建自我改进型公司 [视频]:https://www.bestblogs.dev/video/41f23fe · 浏览器自动化:从 GUI 到 OpenCLI:https://www.bestblogs.dev/article/d1fce9ff · 马斯克的“一人王朝”,6 月 12 日敲钟:https://www.bestblogs.dev/article/98046252 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容,为关注技术、AI、产品、商业、研究、设计、投资、文化、个人成长等多元方向的读者整理每天真正适合自己的阅读流。 BestBlogs Pro 早鸟内测开放:关注你感兴趣的来源、配置兴趣标签,每天收到一份属于自己的「我的早报」。欢迎体验:https://bestblogs.dev
EP64 · Agent 记忆原语、Qwen3 基座突围、评委即未来 · 05-22 早报精讲一:用于自学习自主 Agents 的 Memory 与 Dreaming [视频] 来自 Claude Anthropic 工程师 Ravi 首次公开「Memory」与「Dreaming」两项平台原语:Memory 把 Agent 经验建模为虚拟文件系统,让 Agent 跨会话保留知识并通过乐观并发控制安全共享;Dreaming 则在后台异步整合碎片记忆、消除多 Agent 团队的重复学习。企业案例惊人——Rakuten 首次执行错误率下降 97%。这是 Anthropic 在「长程自主智能体」上迄今最具体的架构路径。 精讲二:Qwen3.7-Max 重新定义 AI Agent 基座 来自 通义大模型 通义实验室的 Qwen3.7-Max 在 35 小时连续执行、1158 次工具调用零中断的极限测试中展示出国产最强 Agent 基座能力:解耦训练架构让其跨框架泛化,在长程 Agentic 稳定性上超越 Claude 3.7 Sonnet 与 GPT-4.1。国内大模型竞争已从「问答分数」转向「长程 Agent 稳定性」,这是该赛道迄今最有力的一次宣言。 精讲三:自动化之后 来自 Every Every 创始人 Dan Shipper 的反直觉洞察:AI 越普及,对人类专家判断力的需求反而越高。AI 批量制造同质化输出,让「评估哪份更好」变成新稀缺;Codex 写代码,但能鉴别对错的工程师更值钱。自动化的终点不是消灭工作,而是把人类角色推向「评委与压舱石」这一最后被商品化的层级。 速览 更多值得关注的内容 · 为智能体配备计算机 — Ivan Burazin,Daytona — Latent Space · Railway:面向智能体的原生云平台 — Jake Cooper — Latent Space · 腾讯混元全新翻译模型 Hy-MT2 开源,小程序「腾讯 Hy 翻译」开放体验 — 腾讯混元 · 选择正确模型:LLM Evals 与优化的数据驱动指南 [视频] — Claude · Google 推出 Android CLI,让 Android 工具链对 AI 智能体更友好 — InfoQ · 下一代大模型推理网络架构:ZCube 如何有效破解网络瓶颈? — 智谱 · 苏姿丰上海开讲:AI 正在重新定义计算的每一层 — 量子位 补充阅读 今天额外值得一读的几条 · OpenAI 模型推翻 80 年数学猜想,AI 首次实现科学发现 — Wes Roth(@WesRothMoney) · OpenAI — OpenAI Blog · QQ 音乐 Harness Engineering 实践 — 腾讯云开发者 · 构建最强 Agentic Analytics Harness:由 Claude 驱动,用 Claude Code 打造 [视频] — Claude · A²I² 的讽刺性悖论 — InfoQ · 提示工程还不够——我构建了一个可在生产环境中运行的控制层 — Towards Data Science · 都是 AI Coding,为什么 Java 体验差了一个量级?五条方法论帮你构建自己的 Harness 环境 — 阿里云开发者 · 发布 ADK for Kotlin 和 ADK for Android 0.1.0:在 Android 及更广平台上构建 AI 智能体 — Google Developers Blog · 合成人格预训练:从零标记开始的对齐 — LessWrong — LessWrong · 编码智能体的可维护性传感器 — Martin Fowler · 来自 Codex 官方团队的分享:如何把 Codex 用到极致 — 宝玉的分享 · Ramp 工程师如何借助 Codex 加速代码审查 — OpenAI Blog · 当 Agent 真正走进复杂数据分析场景:DataClawBench 用 492 个真实任务,给前沿模型做了一次过程级体检 — AI 前线 · LLM 主题并非观察结果 — Towards Data Science · 在 VS Code 中烹饪 Agents | Liam Hampton,Microsoft [视频] — AI Engineer · 会自动交易的交易信号:在系统化投资中规模化受治理的 AI [视频] — Claude 相关链接 · 用于自学习自主 Agents 的 Memory 与 Dreaming [视频]:https://www.bestblogs.dev/video/8bc3725 · Qwen3.7-Max 重新定义 AI Agent 基座:https://www.bestblogs.dev/article/06f8ff33 · 自动化之后:https://www.bestblogs.dev/article/3dc786a9 · 为智能体配备计算机 — Ivan Burazin,Daytona:https://www.bestblogs.dev/article/02d9e6e9 · Railway:面向智能体的原生云平台 — Jake Cooper:https://www.bestblogs.dev/article/0d41d99a · 腾讯混元全新翻译模型 Hy-MT2 开源,小程序「腾讯 Hy 翻译」开放体验:https://www.bestblogs.dev/article/a8f90274 · 选择正确模型:LLM Evals 与优化的数据驱动指南 [视频]:https://www.bestblogs.dev/video/7806c5c · Google 推出 Android CLI,让 Android 工具链对 AI 智能体更友好:https://www.bestblogs.dev/article/06fad8fd · 下一代大模型推理网络架构:ZCube 如何有效破解网络瓶颈?:https://www.bestblogs.dev/article/dee23cb3 · 苏姿丰上海开讲:AI 正在重新定义计算的每一层:https://www.bestblogs.dev/article/7259050a · OpenAI 模型推翻 80 年数学猜想,AI 首次实现科学发现:https://www.bestblogs.dev/status/2057325518585020725 · OpenAI:https://www.bestblogs.dev/article/8586e355 · QQ 音乐 Harness Engineering 实践:https://www.bestblogs.dev/article/ba2a6d8b · 构建最强 Agentic Analytics Harness:由 Claude 驱动,用 Claude Code 打造 [视频]:https://www.bestblogs.dev/video/558565a · A²I² 的讽刺性悖论:https://www.bestblogs.dev/article/6e9098be · 提示工程还不够——我构建了一个可在生产环境中运行的控制层:https://www.bestblogs.dev/article/b9260481 · 都是 AI Coding,为什么 Java 体验差了一个量级?五条方法论帮你构建自己的 Harness 环境:https://www.bestblogs.dev/article/ec64413d · 发布 ADK for Kotlin 和 ADK for Android 0.1.0:在 Android 及更广平台上构建 AI 智能体:https://www.bestblogs.dev/article/78c6e17d · 合成人格预训练:从零标记开始的对齐 — LessWrong:https://www.bestblogs.dev/article/632be4e0 · 编码智能体的可维护性传感器:https://www.bestblogs.dev/article/82054607 · 来自 Codex 官方团队的分享:如何把 Codex 用到极致:https://www.bestblogs.dev/article/e372ffbd · Ramp 工程师如何借助 Codex 加速代码审查:https://www.bestblogs.dev/article/241ff5a3 · 当 Agent 真正走进复杂数据分析场景:DataClawBench 用 492 个真实任务,给前沿模型做了一次过程级体检:https://www.bestblogs.dev/article/c5bb1e16 · LLM 主题并非观察结果:https://www.bestblogs.dev/article/249795ac · 在 VS Code 中烹饪 Agents | Liam Hampton,Microsoft [视频]:https://www.bestblogs.dev/video/62d8dd4 · 会自动交易的交易信号:在系统化投资中规模化受治理的 AI [视频]:https://www.bestblogs.dev/video/715928f 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容,为关注技术、AI、产品、商业、研究、设计、投资、文化、个人成长等多元方向的读者整理每天真正适合自己的阅读流。 BestBlogs Pro 早鸟内测开放:关注你感兴趣的来源、配置兴趣标签,每天收到一份属于自己的「我的早报」。欢迎体验:https://bestblogs.dev
EP63 · OpenAI 攻克 Erdős、Claude Code Routines 上云 · 05-21 早报精讲一:Erdős 突破:OpenAI 模型首次实现重大 AI 数学发现 [视频] 来自 OpenAI OpenAI 模型首次自主攻克了一个组合几何里的开放难题,被研究团队描述为 AI 从「辅助验证」跨向「原创发现」的分水岭。这道几何问题表面平凡、内部极为精细,需要在数千个微小战术决策之间做穿透式搜索;模型借助代数数论的结构性工具,找到了人类一直认为已是最优的构造之外的更优解。团队最初看到输出时连续几天反复核验,认为「太美好以至于不真实」,并坦言这条结果显著缩短了他们对 AI 自主科学发现到来时间表的预估。 精讲二:用 Claude Code Routines 构建主动式智能体工作流 [视频] 来自 Claude Anthropic 在开发者工作坊上发布 Claude Code Routines —— 把 Claude Code 从「敲指令才动」的被动工具升级为可在云端持续运行的主动智能体。Routines 直接跑在 Anthropic 托管的 serverless 环境,原生支持定时调度、GitHub 事件、Webhook 三种触发方式,运行中还能通过网页 / CLI / 桌面端实时查看进度、在中途下指令调整方向。Anthropic 自己的文档团队用一条 /schedule 命令就让 Routine 每周扫一遍 main 分支变更、自动产出文档 PR 并 Slack 通知团队,把工程师从守着 Agent 的「盯屏」工作里解放出来。 精讲三:从零重建 IT 架构:Serval CEO Jake Stauch 谈 AI 原生企业服务管理 [视频] 来自 Sequoia Capital Serval CEO Jake Stauch 与 Sequoia 详细复盘了 AI 原生企业 IT 的重塑路径:保留 ServiceNow 时代「数据库 + 工作流」的核心抽象,但把搭建过程从「点几小时拖拉拽」压缩成「用自然语言描述自动生成 TypeScript」。Stauch 给出的核心判断是:自动化的搭建必须比手动操作本身更简单,否则没人愿意切换。为对抗「slop 自动化」泛滥,Serval 用一个具备全局上下文的监管 Agent 帮 IT 管理员合并冗余流程;并把权限管控放在 Admin Agent 与 Help Desk Agent 的双层架构上 —— 应用层的真正护城河不在拼模型能力,而在为模型设边界、控权限、留审计。 速览 更多值得关注的内容 · 从 Prompt、Context 到 Harness,工程的三次进化与终局之战 — 腾讯云开发者 · 从 8B 到前沿:系统提示如何控制 AI 智能体是否会勒索、泄露和杀戮 — LessWrong — LessWrong · Anthropic 销售负责人如何用 Claude Cowork 管理 4,000 个客户账户 | Claude — Claude Blog · 人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy [播客] — 十字路口 Crossing · TLiveOmni 1.0: 直播视频多模态理解大模型 — 大淘宝技术 · OceanBase 封仲淹:Vibe Coding 只是开始,下一站是软件工厂 [播客] — AI 炼金术 · 软件公司的 AI 改造分级 L1-L4:从个人工具到经营重构(含真实案例拆解) — SaaS 白夜行 补充阅读 今天额外值得一读的几条 · 告别「盯屏守候」:Claude Code 高级自动化三层框架 [视频] — Claude · Lovable 如何在大规模生产环境中实践 Vibe Coding [视频] — Claude · Gemini 3.5 Flash:价格更高,但 Google 计划将其用于一切 — Simon Willison's Weblog · 精通智能体技术:AI 智能体定制 — NVIDIA Technical Blog · GitHub 正在调查内部仓库的未授权访问事件 — GitHub(@github) · Claude Code Harness 工程:数仓侧落地方案|得物技术 — 得物技术 · 谷歌 AI 的 14 年、Gemini 翻身之战,与视觉理解模型:专访 DeepMind 前核心科学家 Andrew Dai|Neolabs 特辑 — 硅谷 101 · 7000 亿美元砸向 AI:这是下一代互联网,还是泡沫重演?| S10E12 [播客] — What's Next|科技早知道 · Gemini Omni:Google 发布原生多模态视频生成模型 — meng shao(@shao__meng) · Gavin Baker 深度解析:轨道计算、台积电与 AI 前沿模型的投资逻辑 [视频] — Invest Like The Best 相关链接 · Erdős 突破:OpenAI 模型首次实现重大 AI 数学发现 [视频]:https://www.bestblogs.dev/video/0b94da5 · 用 Claude Code Routines 构建主动式智能体工作流 [视频]:https://www.bestblogs.dev/video/742ecf9 · 从零重建 IT 架构:Serval CEO Jake Stauch 谈 AI 原生企业服务管理 [视频]:https://www.bestblogs.dev/video/d3abc6d · 从 Prompt、Context 到 Harness,工程的三次进化与终局之战:https://www.bestblogs.dev/article/ae472ac6 · 从 8B 到前沿:系统提示如何控制 AI 智能体是否会勒索、泄露和杀戮 — LessWrong:https://www.bestblogs.dev/article/6a715687 · Anthropic 销售负责人如何用 Claude Cowork 管理 4,000 个客户账户 | Claude:https://www.bestblogs.dev/article/b274f8ad · 人类和 AI Agent 的最佳配合方式,还没被发明|对谈 Paperboy [播客]:https://www.bestblogs.dev/podcast/c35c94b · TLiveOmni 1.0: 直播视频多模态理解大模型:https://www.bestblogs.dev/article/c44121f6 · OceanBase 封仲淹:Vibe Coding 只是开始,下一站是软件工厂 [播客]:https://www.bestblogs.dev/podcast/c541b99 · 软件公司的 AI 改造分级 L1-L4:从个人工具到经营重构(含真实案例拆解):https://www.bestblogs.dev/article/330ed662 · 告别「盯屏守候」:Claude Code 高级自动化三层框架 [视频]:https://www.bestblogs.dev/video/8004a85 · Lovable 如何在大规模生产环境中实践 Vibe Coding [视频]:https://www.bestblogs.dev/video/100a90c · Gemini 3.5 Flash:价格更高,但 Google 计划将其用于一切:https://www.bestblogs.dev/article/9be68136 · 精通智能体技术:AI 智能体定制:https://www.bestblogs.dev/article/4d7bb5be · GitHub 正在调查内部仓库的未授权访问事件:https://www.bestblogs.dev/status/2056884788179726685 · Claude Code Harness 工程:数仓侧落地方案|得物技术:https://www.bestblogs.dev/article/d8025ea9 · 谷歌 AI 的 14 年、Gemini 翻身之战,与视觉理解模型:专访 DeepMind 前核心科学家 Andrew Dai|Neolabs 特辑:https://www.bestblogs.dev/article/27c9df28 · 7000 亿美元砸向 AI:这是下一代互联网,还是泡沫重演?| S10E12 [播客]:https://www.bestblogs.dev/podcast/a9b3ca3 · Gemini Omni:Google 发布原生多模态视频生成模型:https://www.bestblogs.dev/status/2056903365368668211 · Gavin Baker 深度解析:轨道计算、台积电与 AI 前沿模型的投资逻辑 [视频]:https://www.bestblogs.dev/video/97545de 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容,为关注技术、AI、产品、商业、研究、设计、投资、文化、个人成长等多元方向的读者整理每天真正适合自己的阅读流。 BestBlogs Pro 早鸟内测开放:关注你感兴趣的来源、配置兴趣标签,每天收到一份属于自己的「我的早报」。欢迎体验,把反馈发回给我们:https://bestblogs.dev
EP62 · Google I/O 2026 / Karpathy 加入 Anthropic · 05.20 早报今日精讲 Google I/O 2026 开发者主题演讲全览 Google I/O 2026 把过去一年的 AI 押在「智能体」上:Gemini 3.5 系列模型登场,Antigravity 2.0 和全新 Antigravity CLI 让一个开发者就能调度多个子智能体并发处理工作流,内建跨平台终端沙箱、凭据掩码与 Git 策略;Android CLI 把 Android Studio 的能力封装成任意 LLM 都能调用的工具,WebMCP(Chrome 149 起 Origin Trial)让浏览器内智能体直接消费网页结构化能力。比起任何一条单独的模型 / 产品,更值得关注的是 Google 这次把「构建—运行—交付智能体」整条工程链路一次性补齐。 来自 Google Developers Blog Karpathy 重返一线研发:宣布加入 Anthropic Karpathy 在 X 上官宣加入 Anthropic,是近一两年最具信号意义的 AI 人才流动。从 OpenAI 创始成员、特斯拉 AI 总监,到独立做 nanoGPT 与 zero-to-hero 教学的「学者—工程师」代表,他选择重返前沿研发岗位本身就是对 Anthropic 未来几年 LLM 路线最强的背书;同时他强调会继续教育方向的投入,意味着头部 AI 公司开始为「长期影响力型研究者」预留位置,而不是把高杠杆人才当成纯生产资源消耗。可以预期未来几个季度其他实验室的招聘与研究文化都会被这条信号轻微改写。 来自 Andrej Karpathy(@karpathy) Claude Managed Agents 新功能:自托管沙箱与 MCP 隧道 | Claude Anthropic 把 Managed Agents 推向真正的企业级形态:自托管 Sandbox(公测)让工具执行落在企业自己的基础设施,或落到 Cloudflare、Daytona、Modal、Vercel 这类合作 Sandbox,仅把 agent loop 留在 Anthropic 侧;MCP Tunnels(研究预览)让智能体通过单条出向连接安全访问内网 MCP 服务器、内部数据库与工单系统,不再需要把内网 API 暴露公网。这两件事拼出了 enterprise agent 商业化的两块关键拼图:「在企业安全边界内执行任务」与「合规连接私有数据」。 来自 Claude Blog 速览 更多值得关注的内容 · 面向编码智能体的可维护性传感器 — Martin Fowler · 别构建垃圾:AI 智能体成熟度的四个层级 [视频] — AI Engineer · 让 Skill 自己训练自己:8 阶段 Loop、3 层评测、5 维 AND 门控,从此实现自进化 — 腾讯云开发者 · 五分钟回顾 LLM 的最近六个月 — Simon Willison's Weblog · Project Glasswing:Mythos 漏洞研究模型给我们的启示 — The Cloudflare Blog · 使用 LiteRT-LM 实现超快速的端侧 GenAI — Google Developers Blog · LLM 时代的个性化推荐:Spotify 生成式推荐引擎的三大技术支柱 [视频] — AI Engineer 更多推荐 今天额外值得一读的六条 · Gemini 3.5 Flash 在 Google I/O 大会发布:更快、更强,今日即可使用 — Sundar Pichai(@sundarpichai) · Google DeepMind 发布 Gemini Omni:多模态理解与编辑的重大飞跃 — Demis Hassabis(@demishassabis) · Google 推出 Gemini Spark:全天候自主 AI 代理 — Google Gemini(@GeminiApp) · Ettin 重排序模型系列发布 — Hugging Face Blog · 智能体开发全生命周期:构建、测试、部署与监控——LangChain Interrupt 26 主题演讲 [视频] — LangChain · Snapchat 如何每秒服务十亿次预测 — ByteByteGo Newsletter · 内核级真相:为什么 eBPF 正在取代用户空间代理实现安全可观测性 — InfoQ · 推进内容溯源,构建更安全、更透明的 AI 生态系统 — OpenAI Blog 相关链接 · Google I/O 2026 开发者主题演讲全览:https://www.bestblogs.dev/article/fc0bb3b3 · Karpathy 重返一线研发:宣布加入 Anthropic:https://www.bestblogs.dev/status/2056753169888334312 · Claude Managed Agents 新功能:自托管沙箱与 MCP 隧道 | Claude:https://www.bestblogs.dev/article/d38fd355 · 面向编码智能体的可维护性传感器:https://www.bestblogs.dev/article/0c8ed596 · 别构建垃圾:AI 智能体成熟度的四个层级 [视频]:https://www.bestblogs.dev/video/5b995d6 · 让 Skill 自己训练自己:8 阶段 Loop、3 层评测、5 维 AND 门控,从此实现自进化:https://www.bestblogs.dev/article/8fdfe4e8 · 五分钟回顾 LLM 的最近六个月:https://www.bestblogs.dev/article/3e677133 · Project Glasswing:Mythos 漏洞研究模型给我们的启示:https://www.bestblogs.dev/article/baddd33b · 使用 LiteRT-LM 实现超快速的端侧 GenAI:https://www.bestblogs.dev/article/6c2bc055 · LLM 时代的个性化推荐:Spotify 生成式推荐引擎的三大技术支柱 [视频]:https://www.bestblogs.dev/video/220b706 · Gemini 3.5 Flash 在 Google I/O 大会发布:更快、更强,今日即可使用:https://www.bestblogs.dev/status/2056796893951426705 · Google DeepMind 发布 Gemini Omni:多模态理解与编辑的重大飞跃:https://www.bestblogs.dev/status/2056831486251380783 · Google 推出 Gemini Spark:全天候自主 AI 代理:https://www.bestblogs.dev/status/2056792333132460322 · Ettin 重排序模型系列发布:https://www.bestblogs.dev/article/a2de1250 · 智能体开发全生命周期:构建、测试、部署与监控——LangChain Interrupt 26 主题演讲 [视频]:https://www.bestblogs.dev/video/344bf40 · Snapchat 如何每秒服务十亿次预测:https://www.bestblogs.dev/article/d142a736 · 内核级真相:为什么 eBPF 正在取代用户空间代理实现安全可观测性:https://www.bestblogs.dev/article/7e80590d · 推进内容溯源,构建更安全、更透明的 AI 生态系统:https://www.bestblogs.dev/article/ee52116a BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
EP61 · Composer 2.5 / 长时间 Agent / AI 生码率 · 05.19 早报今日精讲 Cursor 发布 Composer 2.5:基于 Kimi K2.5 的智能升级 Cursor 发布 Composer 2.5,基于 Moonshot Kimi K2.5 开源 checkpoint,引入 textual feedback RL(在 rollout 关键节点插入文本提示作教师信号)+ 25 倍合成任务规模。新模型显著提升长任务持续工作能力和指令遵循度,价格 0.50/2.50 美元每 M token,首周双倍额度。同时联合 SpaceXAI 用 Colossus 2 训练新一代模型 —— 交付节奏正在从产品迭代切换到模型迭代。 来自 Cursor Blog 构建能持续运行数小时的智能体:Anthropic 工程师揭秘对抗式生成 - 评估架构 [视频] Anthropic Applied AI 团队 Ash Prabaker 和 Andrew Wilson 在 AI Engineer 大会拆解长时间 Agent 工程:长 session 三大失败是 context rot、规划缺陷、输出 sycophancy。最佳实践是类 GAN 的 generator-evaluator 对抗架构 —— 宏观规划器、代码生成器、Playwright 视觉评审器通过磁盘 markdown 协商契约。Opus 3.7 的 1 小时被 Opus 4.6 的 12 小时取代,6 小时连续会话能造出带物理引擎的游戏。核心结论:self-evaluation 是 trap,必须独立 critic。 来自 AI Engineer CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘 阿里云 CIO 蒋林泉 2026 财年硬数据:前端人均有效代码量翻 3 倍、后端翻 2 倍,千行代码缺陷率前端降 30%、后端降 55% —— 但他从开始就拒绝把「AI 生码率」纳入考核。理由:编码只占软件工程 20% 时间,AI 生码率衡量的恰好是「最容易被替代、价值密度最低」那一段。给企业的两个判断:「代码一定是负债,可能是资产」「Vibe Coding 不直接上生产,要用 AI 辅助的软件工程」。 来自 InfoQ 中文 速览 更多值得关注的内容 · 重新定义 Skill 开发:保姆级教程&一站式开发助手发布 — 阿里云开发者 · RAG 全链路技术详解 — 大淘宝技术 · 从 0 开发大模型的 17 种 Agent 架构演进详细拆解 — 腾讯技术工程 · 深入探索 MCP 与 Spring AI:从协议核心到企业级生产部署全链路指南 [视频] — Spring I/O · Anthropic 创始人手册:AI Native 公司,正在把「几个人做几百人的事」变成现实 — AINLP · AI 收入集中度创新高:Anthropic 与 OpenAI 吞下 89% 份额 — 腾讯科技 · Anthropic 收购 Stainless:整合 SDK 与 MCP 服务器平台 — Anthropic(@AnthropicAI) 相关链接 · Cursor 发布 Composer 2.5:基于 Kimi K2.5 的智能升级:https://www.bestblogs.dev/article/af4d392e · 构建能持续运行数小时的智能体:Anthropic 工程师揭秘对抗式生成 - 评估架构 [视频]:https://www.bestblogs.dev/video/975c781 · CIO 正在抛弃 AI 生码率:一场关于什么才算产研提效的实践复盘:https://www.bestblogs.dev/article/339ffc01 · 重新定义 Skill 开发:保姆级教程&一站式开发助手发布:https://www.bestblogs.dev/article/b71c47ef · RAG 全链路技术详解:https://www.bestblogs.dev/article/1eeddb21 · 从 0 开发大模型的 17 种 Agent 架构演进详细拆解:https://www.bestblogs.dev/article/4ab3a76d · 深入探索 MCP 与 Spring AI:从协议核心到企业级生产部署全链路指南 [视频]:https://www.bestblogs.dev/video/40ee8fb · Anthropic 创始人手册:AI Native 公司,正在把「几个人做几百人的事」变成现实:https://www.bestblogs.dev/article/6a055244 · AI 收入集中度创新高:Anthropic 与 OpenAI 吞下 89% 份额:https://www.bestblogs.dev/article/83ebef45 · Anthropic 收购 Stainless:整合 SDK 与 MCP 服务器平台:https://www.bestblogs.dev/status/2056419620643541012 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验:https://bestblogs.dev
P60 · AI 原生初创 / 资深工程师 LLM · 05.18 早报今日精讲 创始人手册:打造 AI 原生初创公司 Anthropic 官方从四个阶段(构思、MVP、发布、扩展)重构了 2026 年的创业方法论,宝玉翻译并补充了中文读者视角的注解。核心论点:创始人角色已从「写代码的工程师」转变为「AI 智能体的指挥家」,没有技术背景的人也能发布生产级软件,10 人估值超 10 亿美元的精益独角兽已从传说变为常规操作。文章在每个阶段给出可操作的工具栈(Claude Chat / Cowork / Code)和具体策略,是 2026 年创始人最值得精读的一手创业指南,也是理解 AI 如何从根本上改写「创始人」含义的权威视角。 来自 宝玉的分享 2026 年,我作为资深工程师如何使用 LLM 一位 GitHub 资深工程师以前后对照的方式,诚实记录了 AI 工具在 15 个月内的进化:从「偶尔用一下」变成「每个改动都先交给 Agent 跑一遍」。核心发现:Agent 现在能正确诊断 80% 的 Bug、独立写完整 PR,但人类的判断仍在架构决策和「收窄 Bug 搜索空间」上不可替代。他甚至用 14 次 Agent 会话才追到一个棘手 Bug,仍归功于人机协作。这不是产品推广,是实操者 15 个月真实观察,对正在摸索「如何系统引入 LLM」的工程师极有参考价值。 来自 Sean Goedecke AI 硬件浪潮才刚刚开始:来自 Apple、Meta、OpenAI 一线的产业判断 曾主导 Apple MacBook、Meta Orion AR 眼镜、OpenAI 机器人部门的硬件高管 Caitlin Kalinowski,在 Lenny's Podcast 中给出了几个反直觉的产业判断:数十亿美元 VR 投资「看似失败」,实则奠定了机器人与物理 AI 完整感知技术栈;硬件工程整个生命周期只有 4-5 次「编译」机会,要求比软件高出数量级的纪律;一颗「DRAM 价格陨石」正飞向消费硬件与机器人产业(超大规模数据中心抢占全球内存配额);专用工业机器人已在制造线几乎无人干预地运作,人形机器人仍在原型阶段。她还谈到因治理与国防合作边界分歧从 OpenAI 辞职的经历。 来自 Lenny's Podcast 速览 更多值得关注的内容 · MemPrivacy 开源:让端云 Agent 记住你,但不把隐私交出去 — 魔搭 ModelScope 社区 · 用 AI 调试 AI:如何规模化排查复杂多提示词架构的问题 [视频] — AI Engineer · AI Harness 深度解析:用确定性工程让智能体真正可靠 [视频] — AI Engineer · 为什么你的 AI 用户体验是破碎的(锅不在模型) [视频] — AI Engineer · 超越代码覆盖率:用 Playwright 实现功能测试,重塑 AI 时代的 TDD 闭环 [视频] — AI Engineer · AI 需要大踏步走进业务现场:聊聊企业微信 — 刘言飞语 · 复盘 16 个 GenZ AI 创业团队:百万级融资密集出现,社交仍是最热赛道? — 白鲸出海 更多推荐 今天额外值得一读的六条 · LLM 评估基于感觉——我构建了缺失的决策层来判断什么该上线 — Towards Data Science · 企业无人建模的风险:AI 正在取代它需要学习的专家 — VentureBeat · 掌握 Claude Code 的「探索 → 规划 → 编码 → 提交」工作流 [视频] — Claude 相关链接 · 创始人手册:打造 AI 原生初创公司:https://www.bestblogs.dev/article/5efca4cf · 2026 年,我作为资深工程师如何使用 LLM:https://www.bestblogs.dev/article/fe4694f8 · AI 硬件浪潮才刚刚开始:来自 Apple、Meta、OpenAI 一线的产业判断:https://www.bestblogs.dev/article/6a82bd8 · MemPrivacy 开源:让端云 Agent 记住你,但不把隐私交出去:https://www.bestblogs.dev/article/168cdaac · 用 AI 调试 AI:如何规模化排查复杂多提示词架构的问题 [视频]:https://www.bestblogs.dev/video/b0aa1a6 · AI Harness 深度解析:用确定性工程让智能体真正可靠 [视频]:https://www.bestblogs.dev/video/3142af7 · 为什么你的 AI 用户体验是破碎的(锅不在模型) [视频]:https://www.bestblogs.dev/video/a905472 · 超越代码覆盖率:用 Playwright 实现功能测试,重塑 AI 时代的 TDD 闭环 [视频]:https://www.bestblogs.dev/video/71e8fc2 · AI 需要大踏步走进业务现场:聊聊企业微信:https://www.bestblogs.dev/article/6922419e · 复盘 16 个 GenZ AI 创业团队:百万级融资密集出现,社交仍是最热赛道?:https://www.bestblogs.dev/article/e60c0b1b · LLM 评估基于感觉——我构建了缺失的决策层来判断什么该上线:https://www.bestblogs.dev/article/5a8c6f1b · 企业无人建模的风险:AI 正在取代它需要学习的专家:https://www.bestblogs.dev/article/d80ab044 · 掌握 Claude Code 的「探索 → 规划 → 编码 → 提交」工作流 [视频]:https://www.bestblogs.dev/video/9b6d15a BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
EP59 · ChatGPT 理财 / 智能体控制平面 / 新时代的产品 · 05.17 早报今日精讲 ChatGPT 中的全新个人理财体验 OpenAI 面向美国 Pro 用户推出 ChatGPT 个人理财功能:通过 Plaid 安全连接超过 1.2 万家金融机构,自动分类支出并生成可视化仪表盘,涵盖投资组合表现、订阅和待付账单。每月已有逾 2 亿人用 ChatGPT 咨询预算和投资;配合 GPT‑5.5 的推理能力,这次更新将通用建议升级为基于真实账户的个性化财务规划。这是 OpenAI 迄今最明确地向高信任垂直领域进军的一步,也是 ChatGPT 从对话工具向「个人 CFO」转型的关键节点。 来自 OpenAI Blog Claude 的下一个企业战场不是模型:而是智能体控制平面 VentureBeat 对企业 AI 编排平台的首次系统调查显示,微软以 38.6% 份额领跑,OpenAI 以 25.7% 位居第二,Anthropic 从零起步跃至 5.7%,首次出现在企业智能体编排赛道。文章指出下一场竞争并不在模型基准,而在谁掌控「智能体控制平面」——智能体规划、调用工具、访问数据、运行工作流并向安全团队证明合规的基础设施层。 来自 VentureBeat 当软件容易被创作,新时代的产品长什么样? | 对谈 Albert [播客] 42 章经再次对话连续创业者 Albert:Opus 4.6 之后,团队跑了几十个新产品却大多没过发布门槛,直到 merging.live 面世。Albert 的核心判断——「智能不是最 high level 的价值」。当模型厂商正在收割大部分商业价值,真正的机会在于为新 maker 群体提供「回响」:人人都能做产品之后,稀缺的是专注与情感连接,而不是功能本身。节目还聊到未来软件如何像泡泡玛特一样出现品牌溢价,和一级市场的变局。 来自 42 章经 速览 更多值得关注的内容 · 用 AI Agent 构建软件:畅想 Token 无限量时代的未来 — Peter Steinberger 🦞(@steipete) · LLM 架构最新进展:KV 共享、mHC 与压缩注意力 — Ahead of AI · Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao 好聊论文 — 腾讯科技 · 走进数采工厂:深聊机器人数据荒漠、四层金字塔与种树人 — 硅谷 101 · OpenAI 世纪审判走到结案,我们梳理了最核心的几个问题 — 腾讯科技 · 40 亿美金 Box CEO Aaron Levie:现在是创立 AI 公司的最佳时机 [视频] — Silicon Valley Girl · 递归语言模型:一次全面的深度剖析 — Towards Data Science 更多推荐 今天额外值得一读的六条 · 智能体不开站会:构建「后工程师」工程组织的实战案例 [视频] — AI Engineer · 稚晖君抛出“三条曲线”,讲了一套具身智能出海的新逻辑 — 腾讯科技 · 虾马之后又火一个!OpenHuman 用 20 分钟了解你的一切,存成卡帕西式知识库 — 量子位 相关链接 · ChatGPT 中的全新个人理财体验:https://www.bestblogs.dev/article/dd222fc2 · Claude 的下一个企业战场不是模型:而是智能体控制平面:https://www.bestblogs.dev/article/2a18b2f4 · 当软件容易被创作,新时代的产品长什么样? | 对谈 Albert [播客]:https://www.bestblogs.dev/podcast/d9c1779 · 用 AI Agent 构建软件:畅想 Token 无限量时代的未来:https://www.bestblogs.dev/status/2055405041843052792 · LLM 架构最新进展:KV 共享、mHC 与压缩注意力:https://www.bestblogs.dev/article/8721ce92 · Anthropic 教会了模型懂道德,也打通了一条蒸馏你的新路|Hao 好聊论文:https://www.bestblogs.dev/article/26504ecc · 走进数采工厂:深聊机器人数据荒漠、四层金字塔与种树人:https://www.bestblogs.dev/article/f08ba234 · OpenAI 世纪审判走到结案,我们梳理了最核心的几个问题:https://www.bestblogs.dev/article/61cbb152 · 40 亿美金 Box CEO Aaron Levie:现在是创立 AI 公司的最佳时机 [视频]:https://www.bestblogs.dev/video/bea2c19 · 递归语言模型:一次全面的深度剖析:https://www.bestblogs.dev/article/56cbb09c · 智能体不开站会:构建「后工程师」工程组织的实战案例 [视频]:https://www.bestblogs.dev/video/4de8554 · 稚晖君抛出“三条曲线”,讲了一套具身智能出海的新逻辑:https://www.bestblogs.dev/article/e0197f98 · 虾马之后又火一个!OpenHuman 用 20 分钟了解你的一切,存成卡帕西式知识库:https://www.bestblogs.dev/article/d7d0e59a BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
EP58 · AI 思考伙伴 / Abridge 医疗智能层 · Imagen 2.0 · 05.16 早报今日精讲 将 AI 用作大规模工程系统的思考伙伴 Google 高级 Staff 工程师 Julie Qiu 在 InfoQ 分享:她带的 gcloud CLI 团队要维护九种语言的客户端库,是个跨多仓库、多语言的复杂工程系统。她把 AI 当成一个能问问题、能一起做实验的伙伴,分三步:先读懂系统、再做实验,最后重新设计。最有用的不是让 AI 写代码,而是把每次「我应该这样改吗」的犹豫时间,从几天压到几小时。一份真正在用 AI 做事的资深工程师实操总结。 来自 InfoQ AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时 Abridge 成立于 2018 年,比 ChatGPT 早四年起步,安安静静做医疗里最难的一件事——医生和病人之间的对话。今年预计支持 8000 万次问诊,覆盖美国 250 家医院、28 种语言、50 多个专科;2025 年 6 月完成 3 亿美元 E 轮、估值 53 亿美元。Janie Lee 和 Chai Asawa 讲了从环境记录扩展到临床智能层的过程:环境抄写帮医生每周省 10-20 小时,预授权从几周缩到几分钟,把 EHR 当成医疗 Agent 的文件系统。 来自 Latent Space OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 [视频] OpenAI Podcast 第 19 期:产品负责人 Adele Lee 和研究员 Kenji 聊 Imagen 2.0 上线后看到的反馈。使用量增长 50%,每周生成约 15 亿张图;三个具体改进——字渲染更准、多语言原生支持、写实感更强。「网格测试」从画几个物体扩到能一次性管好 100 个对象,让模型在做生物图、做幻灯片这类场景里真的可用。路线图也比较克制:Creative Agents 慢慢学用户偏好,再把 Imagen 和 Codex 串起来,让视觉概念和实现它的代码在同一个回合里出来。 来自 OpenAI 速览 更多值得关注的内容 · Kimi WebBridge:让 AI 帮你操作浏览器 — 月之暗面 Kimi · DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍 — zartbot · [AINews] 万物皆向 Conductor 看齐 — Latent Space · Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么? — 宝玉的分享 · 腾讯混元推出轻量翻译大模型,无需联网,手机直接运行 — 腾讯技术工程 · 警惕全球“最大”芯片 IPO 的暴雷风险 — 腾讯科技 · 普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能 — Anthropic News 更多推荐 今天额外值得一读的六条 · 用一个抽象搭建 AI Agent Harness:事件溯源、Stream Processor 与 Dynamic Workers | Jonas Templestein,Iterate [视频] — AI Engineer · Hugging Face 开放智能体生态全景:从本地编程智能体、MCP 集成到 Skills 自动化微调 [视频] — AI Engineer · 科技爱好者周刊(第 396 期):互联网通信的替代方案 — 阮一峰的网络日志 · Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台 — 阿里技术 · 【第 3699 期】Karpathy 的 4 条规则让 Claude 出错率骤降,但还不够。Mnimiy 又加了 8 条 — 前端早读课 相关链接 · 将 AI 用作大规模工程系统的思考伙伴:https://www.bestblogs.dev/article/589d5efc · AI 原生医疗:Abridge 一年 8000 万次就诊、为医生每周省 10-20 小时:https://www.bestblogs.dev/article/e618e0e5 · OpenAI Imagen 2.0 深度解析:文字渲染、多语言支持与创意 Agent 路线图 [视频]:https://www.bestblogs.dev/video/0da3123 · Kimi WebBridge:让 AI 帮你操作浏览器:https://www.bestblogs.dev/article/31884d93 · DeepSeek-V4 MegaMoE 拆解:通信计算重叠把性能提到 1.9 倍:https://www.bestblogs.dev/article/76f659e2 · [AINews] 万物皆向 Conductor 看齐:https://www.bestblogs.dev/article/3a3c9344 · Forward Deployed Engineer:AI 时代的新宠岗位,到底干什么?:https://www.bestblogs.dev/article/81a8944a · 腾讯混元推出轻量翻译大模型,无需联网,手机直接运行:https://www.bestblogs.dev/article/47e5f129 · 警惕全球“最大”芯片 IPO 的暴雷风险:https://www.bestblogs.dev/article/e6a73505 · 普华永道正在部署 Claude,为客户构建技术、执行交易并重塑企业职能:https://www.bestblogs.dev/article/b80806a0 · 用一个抽象搭建 AI Agent Harness:事件溯源、Stream Processor 与 Dynamic Workers | Jonas Templestein,Iterate [视频]:https://www.bestblogs.dev/video/b3b509f · Hugging Face 开放智能体生态全景:从本地编程智能体、MCP 集成到 Skills 自动化微调 [视频]:https://www.bestblogs.dev/video/677bdba · 科技爱好者周刊(第 396 期):互联网通信的替代方案:https://www.bestblogs.dev/article/dd5b83f4 · Qoder 1.0 正式发布!从 AI IDE 迈向智能体自主开发工作台:https://www.bestblogs.dev/article/f6e56091 · 【第 3699 期】Karpathy 的 4 条规则让 Claude 出错率骤降,但还不够。Mnimiy 又加了 8 条:https://www.bestblogs.dev/article/a8636fb0 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
BestBlogs 周刊第 95 期:Agent 工程化的全面落地本周亮点 本周没有顶级模型发布,但 Anthropic、OpenAI、阿里、腾讯、淘宝、Kimi 同时把 Agent 真正推向生产。Coding 工具走出 IDE 走向整个计算机、Computer Use 工程化、Windows 沙箱、Agent Skill 开放标准;国内多智能体 Harness 三连发(Kimi×TiDB / 腾讯 / 阿里 Java 1.1);阿里继续追问 AI Native 时代研发组织该往哪走。 时间线 00:00 开场 · 本期主题 + BestBlogs 三步引导 / 邀请 / 老用户赠送 01:41 主题一 · Coding 工具走出编辑器(Anthropic + OpenAI 同步答卷) 06:19 主题二 · 评估 + 长时运行 + Agent Skill 开放标准 08:57 主题三 · 国内多智能体 Harness 三连发 12:25 主题四 · AI Native 组织、Eric Ries、三场访谈、产业现场两种姿态 17:30 收尾 · 本周关键词 + 下周预告 精讲条目 主题一 · Coding 工具走出编辑器 * Claude Code 在大型代码库的工程化打法 · Anthropic · https://www.bestblogs.dev/article/243d2340 * Claude Code Agent View · Anthropic · https://www.bestblogs.dev/article/e8c4364d * Claude Computer Use / Browser Use 最佳实践 · Anthropic · https://www.bestblogs.dev/article/94694e50 * Codex 的 Computer Use 上线 · OpenAI · https://www.bestblogs.dev/video/cc94ab1 * 在 Windows 上为 Codex 构建安全沙箱 · OpenAI · https://www.bestblogs.dev/article/36e502e0 * Codex 负责人 Tibo Sio 访谈 · OpenAI Forum · https://www.bestblogs.dev/video/e310426 主题二 · 评估 + 长时运行 + Agent Skill * 100+ 部署沉淀的 12 项 AI Agent 评估指标 · Towards Data Science · https://www.bestblogs.dev/article/ed72fe59 * 长时间运行 Agent 三处架构跃迁 · Google ADK · https://www.bestblogs.dev/article/7be5372c * Agent Skill 规范、构建与设计模式 · 阿里云开发者 · https://www.bestblogs.dev/article/ad38855c 主题三 · 国内多智能体 Harness 三连发 * Kimi K2.6 Agent × TiDB Cloud · Founder Park · https://www.bestblogs.dev/article/70ea435c * 生产级 Multi-Agent Harness 全景 · 腾讯云开发者 · https://www.bestblogs.dev/article/878057b5 * AgentScope Java 1.1 Harness Framework · 阿里云开发者 · https://www.bestblogs.dev/article/321aed16 * AI-Generated UI 技术深度解析 · 大淘宝技术 · https://www.bestblogs.dev/article/42f8648f 主题四 · 组织、商业模式与人物 * AI Native 时代 — 研发组织何去何从 · 阿里技术 · https://www.bestblogs.dev/article/8c2c877a * 如何打造能穿越时代的公司 · Eric Ries · Lenny's Podcast · https://www.bestblogs.dev/video/2efe03f * 与张涛对话:Manus AI 的崛起 · Stripe · https://www.bestblogs.dev/video/cf1fb78 * Suno CEO Mikey Shulman · Sequoia Capital · https://www.bestblogs.dev/video/c6a585f * 4 小时访姚顺宇 · 张小珺商业访谈录 · https://www.bestblogs.dev/podcast/a4391a3 * 李想 × 罗永浩 · 罗永浩的十字路口 · https://www.bestblogs.dev/podcast/177bfb5 * AI 跃迁者 02 · flomo 少楠 · 腾讯研究院 · https://www.bestblogs.dev/article/6af09fd5 关于 BestBlogs BestBlogs.dev 是 AI 驱动的个性化高质量阅读工作流,「我的早报」每天为你生成一份基于关注源 + 兴趣画像的精选内容。 完成新用户三步引导送 7 天 Pro 试用;现有 Pro 用户邀请朋友双方各得 7 天 Pro(上限 28 天);老用户 5/15 至 5/31 还有 14 天 Pro 限时赠送,到 bestblogs.dev/promo 一键领取。 相关链接 * 本期周刊 · https://www.bestblogs.dev/newsletter/issue95 * 三步引导送 7 天 Pro 试用 · https://bestblogs.dev * 5/15 至 5/31 老用户 14 天 Pro 限时赠送 · https://bestblogs.dev/promo
EP57 · Claude Code 最佳实践 / GPT-Realtime-2 · 05.15 早报BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev 今日精讲 Claude Code 在大型代码库中的运作方式:最佳实践与入门指南 | Claude Anthropic 官方深度指南,面向百万行级大型代码库。核心洞察:「Harness 和模型同等重要」——五大扩展点(CLAUDE.md / Hooks / Skills / Plugins / MCP)加上 LSP 与子智能体共同决定实际表现。关键建议:用 LSP 实现符号级导航,子智能体解耦探索与编辑;每 3-6 个月随模型迭代更新配置,避免旧规则约束新能力。大型组织正出现「Agent Manager」这一新兴职能。 来自 Claude Blog Build Hour 深解 GPT-Realtime-2:语音 Agent 如何从聊天迈向「语音→行动」 [视频] OpenAI Build Hour 围绕 GPT-Realtime-2 展开深度解析:三款音频模型协同工作——Real-time Translate 支持 70+ 语言输入,Real-time Whisper 最低延迟 200ms,GPT-Realtime-2 带来 GPT-5 级推理与 128k 上下文(4 倍扩展),支持「前导语」缓冲和逐轮 VAD 控制。Sierra 实测对比传统级联系统延迟降低 30-200%,语音 Agent 正从聊天界面跃升为自主「语音→行动」工作流。 来自 OpenAI AI 让生产效率不再是瓶颈,然后呢?|AI 跃迁者调研 02-flomo 少楠 flomo/幕布联合创始人少楠分享:16 人团队 70-80% 代码由 AI 贡献,开发周期从按月压到按小时。真正的瓶颈随即浮现——产品经理效率反而下降,因为能直接证伪想法,许多需求被枪毙。核心判断:AI 没有带来能力平权,只有原来优秀的人变得更优秀;协作方式重构才是最大挑战,不是工具本身。 来自 腾讯研究院 速览 更多值得关注的内容 · 164: 当 AI“杀死”SaaS,与明略吴明辉聊多 Agent 网络、软件业转型和 AI 新组织 [播客] — 晚点聊 LateTalk · OpenAI 前 CTO,带来了永远「在场」AI 的原型|Hao 好聊论文 — 腾讯科技 · Skill Factory:三天手搓面向 Harness 设计的技能工厂(附 AI coding 实践) — 阿里云开发者 · OpenAI 13.1 万 GPU 训练网络背后反直觉的网络设计决策 — Towards Data Science · 从直觉到数据:用 Evals 与五段式 Rubric 打造可靠 AI Agent [视频] — AI Engineer · 只加两行代码,为什么要两天?一文深度理解业务系统的复杂性 — 腾讯云开发者 · Codex 正式登陆 ChatGPT 移动应用 — OpenAI Developers(@OpenAIDevs) 更多推荐 今天额外值得一读的六条 · OpenAI Codex 负责人 Tibo Sio:Codex 如何从开发者工具进化为通用 Agent,并预告 Slash Goal 与 Auto Review [视频] — OpenAI · 解锁连续批处理中的异步性 — Hugging Face Blog · 从延迟到即时:GitHub Issues 导航性能现代化改造 — The GitHub Blog · 在 Zoox 加速 LLM 驱动的开发者生产力 — InfoQ 相关链接 · Claude Code 在大型代码库中的运作方式:最佳实践与入门指南 | Claude:https://www.bestblogs.dev/article/243d2340 · Build Hour 深解 GPT-Realtime-2:语音 Agent 如何从聊天迈向「语音→行动」 [视频]:https://www.bestblogs.dev/video/9810fee · AI 让生产效率不再是瓶颈,然后呢?|AI 跃迁者调研 02-flomo 少楠:https://www.bestblogs.dev/article/6af09fd5 · 164: 当 AI“杀死”SaaS,与明略吴明辉聊多 Agent 网络、软件业转型和 AI 新组织 [播客]:https://www.bestblogs.dev/podcast/7955adb · OpenAI 前 CTO,带来了永远「在场」AI 的原型|Hao 好聊论文:https://www.bestblogs.dev/article/8a90b160 · Skill Factory:三天手搓面向 Harness 设计的技能工厂(附 AI coding 实践):https://www.bestblogs.dev/article/f8b20a39 · OpenAI 13.1 万 GPU 训练网络背后反直觉的网络设计决策:https://www.bestblogs.dev/article/99ada4d7 · 从直觉到数据:用 Evals 与五段式 Rubric 打造可靠 AI Agent [视频]:https://www.bestblogs.dev/video/0c45799 · 只加两行代码,为什么要两天?一文深度理解业务系统的复杂性:https://www.bestblogs.dev/article/cb936339 · Codex 正式登陆 ChatGPT 移动应用:https://www.bestblogs.dev/status/2055016926213181608 · OpenAI Codex 负责人 Tibo Sio:Codex 如何从开发者工具进化为通用 Agent,并预告 Slash Goal 与 Auto Review [视频]:https://www.bestblogs.dev/video/e310426 · 解锁连续批处理中的异步性:https://www.bestblogs.dev/article/5dd2a87d · 从延迟到即时:GitHub Issues 导航性能现代化改造:https://www.bestblogs.dev/article/38f3d520 · 在 Zoox 加速 LLM 驱动的开发者生产力:https://www.bestblogs.dev/article/a880e863
EP56 · Claude Agent 实战 / Codex 沙箱 · 05.14 早报今日精讲 使用 Claude 进行计算机和浏览器操作的最佳实践 Anthropic 针对 Claude 4.6 / Opus 4.7 发布权威最佳实践:点击不准的根本原因是截图超过 API 内部尺寸上限后被静默下采样导致坐标系偏移,解法是发送前主动将截图缩放到 1280×720(Opus 4.7 建议 1080p)。全文覆盖安全架构(必须使用专用虚拟机、绝不暴露敏感主机数据)、Browser Use 与 Computer Use 的场景取舍,以及 Agent 循环中人工确认门控的设计原则,是构建任何浏览器或桌面自动化 Agent 前的必读指南。 来自 Claude Blog 在 Windows 上为 Codex 构建安全有效的沙箱 Windows 没有 Linux seccomp 或 macOS Seatbelt 那样开箱即用的沙箱原语,OpenAI 为 Codex 逐一评估了 AppContainer(权限模型过窄)、Windows Sandbox(Home 版不可用、需独立虚拟机)、MIC 完整性标签(改变工作区全局信任模型风险过大)后,选择自研:为 Codex 分配专属 Windows SID 配合写受限令牌,在操作系统层强制只允许向指定目录写入,全程无需管理员权限。这个设计范式对所有需要在 Windows 上隔离文件系统的 Agent 系统都有参考价值。 来自 OpenAI Blog 为生产级 AI 智能体构建评估框架:来自 100+ 次部署的 12 项指标体系 100+ 次企业 AI Agent 生产部署经验提炼的 12 指标框架,覆盖检索(上下文相关性 >0.85、召回率 >0.90)、生成(回答忠实度 >0.95、幻觉率 <2%)、Agent 行为(工具选择准确率 >0.92、执行成功率 >0.98)和生产层(单次成本 <$0.05、P99 <3s)四层。核心教训:MVP 后再补评估框架要花 4-6 周,而基准测试准确率 95% 的 RAG Agent 在真实生产流量上幻觉率可能高达 30%——测试集永远无法覆盖生产流量分布。 来自 Towards Data Science 速览 更多值得关注的内容 · 李想×罗永浩!李想的理想:通过 AI 技术,让普通人也过上富豪的生活 [播客] — 罗永浩的十字路口 · 从头构建多智能体系统学到的经验 — InfoQ · Databricks 的高性能速率限制 — ByteByteGo Newsletter · 快手 OneSearch-V2 全量上线,生成式搜索进入「懂你」时代 — 快手技术 · 让 AI Agent 感知浏览器渲染:为 Agent 构建前端验收 Harness — 百度 Geek 说 · Claude 付费计划将包含程序化使用月度专用额度(6 月 15 日起) — ClaudeDevs(@ClaudeDevs) · #536. 五种多智能体架构类型 [播客] — 跨国串门儿计划 更多推荐 今天额外值得一读的六条 · 积压队列的数学原理:面向队列恢复的容量规划 — InfoQ · [AINews] 微调时代的终结 — Latent Space · Browser Run:现已运行于 Cloudflare Containers,速度更快、扩展性更强 — The Cloudflare Blog 相关链接 · 使用 Claude 进行计算机和浏览器操作的最佳实践:https://www.bestblogs.dev/article/94694e50 · 在 Windows 上为 Codex 构建安全有效的沙箱:https://www.bestblogs.dev/article/36e502e0 · 为生产级 AI 智能体构建评估框架:来自 100+ 次部署的 12 项指标体系:https://www.bestblogs.dev/article/ed72fe59 · 李想×罗永浩!李想的理想:通过 AI 技术,让普通人也过上富豪的生活 [播客]:https://www.bestblogs.dev/podcast/177bfb5 · 从头构建多智能体系统学到的经验:https://www.bestblogs.dev/article/06440a10 · Databricks 的高性能速率限制:https://www.bestblogs.dev/article/93c5452a · 快手 OneSearch-V2 全量上线,生成式搜索进入「懂你」时代:https://www.bestblogs.dev/article/6f004de8 · 让 AI Agent 感知浏览器渲染:为 Agent 构建前端验收 Harness:https://www.bestblogs.dev/article/8d572168 · Claude 付费计划将包含程序化使用月度专用额度(6 月 15 日起):https://www.bestblogs.dev/status/2054610152817619388 · #536. 五种多智能体架构类型 [播客]:https://www.bestblogs.dev/podcast/5251b3f · 积压队列的数学原理:面向队列恢复的容量规划:https://www.bestblogs.dev/article/d9c02431 · [AINews] 微调时代的终结:https://www.bestblogs.dev/article/ac0bc85b · Browser Run:现已运行于 Cloudflare Containers,速度更快、扩展性更强:https://www.bestblogs.dev/article/e8e66179 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
EP55 · 什么是代码 / ADK 长时间 Agent / Codex Computer Use · 05.13 早报今日精讲 什么是代码? Unmesh Joshi(Thoughtworks 首席工程师、《Patterns of Distributed Systems》作者)在 LLM 时代重新追问:代码究竟是什么?他的答案:代码同时承载两个使命——给机器的指令(正在被 LLM 商品化),以及问题域的概念模型(这是真正难以被替代的价值)。当 LLM 将语法生成商品化,稀缺技能从「会写代码」转向「构建精准词汇表和共享理解」。这与 DDD 的「通用语言」和有界上下文一脉相承——在 AI 时代,开发者应该主动变强的是建模能力,而非打字速度。 来自 Martin Fowler 构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK) Google ADK 教程通过一个「新员工入职协调 Agent」展示了三项关键架构转变:持久化状态机(六个明确节点替代对话历史,彻底消除上下文污染)、事件驱动休眠门控(Agent 暂停等待签字而非主动轮询,零资源占用)、多 Agent 委托(IT 子 Agent 独立完成账号配置)。核心洞察:真实企业工作流充满长达数天的「空闲等待」,无状态聊天机器人天然无法应对;通过 ADK 把 Context 与 State 解耦,才是 Agent 从 Demo 走向生产的关键一步。完整代码已开源于 GitHub。 来自 Google Developers Blog Codex 的 computer use:OpenAI 展示新的 AI 队友能力 [视频] OpenAI 演示的 Codex computer use 标志着 AI Agent 从「生成文本」走向「操作本地 GUI」:它用独立光标在后台运行,不会接管用户 Mac,可同时设置 VM、播放 Spotify、添加日历提醒;技术架构结合截图视觉模型与 OS Accessibility 框架,快速场景下用 Spark 模型可达「超人速度」。安全层面采用逐应用权限授权,未经许可的应用对 Codex 完全不可见。目前仅 Mac 可用,Windows 支持即将到来。 来自 OpenAI 速览 更多值得关注的内容 · QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾 — 小红书技术 REDtech · Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务 — Founder Park · Anthropic 网络安全团队如何用 Claude Code 构建威胁检测平台 | Claude — Claude Blog · Claude 法律行业版 | Claude — Claude Blog · 吴恩达:AI 不会带来“失业末日”,而是“就业狂欢” — Andrew Ng(@AndrewYNg) · Agent Skill 规范、构建与设计模式 — 阿里云开发者 · 立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤 — VentureBeat 更多推荐 今天额外值得一读的六条 · OpenAI 翁家翌:“启发式学习”的强化学习新范式 — AINLP · Code w/ Claude SF 2026:在 AI 指数级增长之上构建 | Claude — Claude Blog · 暴跌漩涡中,软件选择主动被大模型“吞噬” — 腾讯科技 · AI 时代到底该怎么管一个工程团队 — 宝玉的分享 相关链接 · 什么是代码?:https://www.bestblogs.dev/article/edb95d73 · 构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK):https://www.bestblogs.dev/article/7be5372c · Codex 的 computer use:OpenAI 展示新的 AI 队友能力 [视频]:https://www.bestblogs.dev/video/cc94ab1 · QCon 北京 2026 | 把自动化测试当 AI Coding 来做:小红书 GUI Agent 实战回顾:https://www.bestblogs.dev/article/852b6f4a · Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务:https://www.bestblogs.dev/article/70ea435c · Anthropic 网络安全团队如何用 Claude Code 构建威胁检测平台 | Claude:https://www.bestblogs.dev/article/5087293a · Claude 法律行业版 | Claude:https://www.bestblogs.dev/article/289b54fe · 吴恩达:AI 不会带来“失业末日”,而是“就业狂欢”:https://www.bestblogs.dev/status/2054236506756370865 · Agent Skill 规范、构建与设计模式:https://www.bestblogs.dev/article/ad38855c · 立即保护您的企业:针对 Shai-Hulud 蠕虫与 npm 漏洞的 6 个可执行步骤:https://www.bestblogs.dev/article/e156f717 · OpenAI 翁家翌:“启发式学习”的强化学习新范式:https://www.bestblogs.dev/article/26aa578b · Code w/ Claude SF 2026:在 AI 指数级增长之上构建 | Claude:https://www.bestblogs.dev/article/cd92af96 · 暴跌漩涡中,软件选择主动被大模型“吞噬”:https://www.bestblogs.dev/article/ed01583d · AI 时代到底该怎么管一个工程团队:https://www.bestblogs.dev/article/441e3597 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
EP54 ·Claude Code 智能体视图上线 / OpenAI 成立部署公司· 05.12 早报今日精讲 Claude Code 中的智能体视图 | Claude Claude Code 今日推出「智能体视图」,一块面板统览所有并行会话——哪些在等你决策、哪些仍在运行、哪些已完成。左箭头进入,回复后自动继续,不再需要切换终端标签或 tmux 格子。早期用户最常见的模式:批量下发多个任务配合 skill,等一批 PR 同时就绪再集中审查。以研究预览形式上线 Pro / Max / Team / Enterprise 计划。 来自 Claude Blog OpenAI 推出 OpenAI 部署公司,助力企业围绕智能构建业务 OpenAI 成立独立部署子公司,初始超 40 亿美元、配备 150 名前线部署工程师,将常驻企业内部帮 AI 落地。这不是卖许可证的生意——而是 OpenAI 派人到现场解决「AI 跑不起来」的问题。19 家合作伙伴支持释放了一个清晰信号:AI 真正的瓶颈已从模型能力转向组织落地能力,谁能把模型送进生产环境谁就赢。 来自 OpenAI Blog 姚顺宇 4 小时访谈:在 Anthropic 训 Claude、AI 英雄主义时代已过去 [播客] 一位清华斯坦福背景、亲历 Anthropic 和 Google DeepMind 的 AI 研究员,用 4 小时分享了他对预训练、coding 爆发、字节豆包的第一手判断。他说「AI 不太需要脑子」「英雄主义时代已过去」——不是在唱反调,而是在用亲历者视角重新定义 AI 时代的核心竞争力:靠谱、做事细、对自己的工作负责。值得每一个关心 AI 行业走向的人细听。 来自 张小珺 Jùn|商业访谈录 速览 更多值得关注的内容 · Anthropic 推出 Claude Managed Agents,助力规模化部署 — Claude(@claudeai) · Andrej Karpathy 谈人机交互的未来:从文本到交互式神经视频 — Andrej Karpathy(@karpathy) · 我们刚过了人类最后一个劳动节?AI 新职业的八个变化 — 腾讯研究院 · Pinterest 如何构建生产级 MCP 生态系统 — ByteByteGo Newsletter · SocialReasoning Bench 揭示当前 AI 智能体的局限性 — Microsoft Research Blog · 再也无需手写项目更新:Notion 的 AI 赋能工程会议 [视频] — How I AI · Netflix 借助 Apache Druid 的区间感知缓存,84% 的查询结果来自缓存 — InfoQ 更多推荐 今天额外值得一读的六条 · 深度拆解:AI Agent Harness 的构造 — 宝玉的分享 · 在 Anthropic 的读心术之外,大模型黑盒迎来了真正的法医 | Hao 好聊论文 — 腾讯科技 · PayPal 借助 Cursor 将路线图吞吐量提升 40% · Cursor — Cursor Blog · 黄金时代论:Marc Andreessen 谈 AI 与劳动力的未来 [视频] — a16z · 裁员潮将持续,直到我们学会发掘 AI 的商业价值 — 宝玉的分享 相关链接 · Claude Code 中的智能体视图 | Claude:https://www.bestblogs.dev/article/e8c4364d · OpenAI 推出 OpenAI 部署公司,助力企业围绕智能构建业务:https://www.bestblogs.dev/article/f648cbd2 · 姚顺宇 4 小时访谈:在 Anthropic 训 Claude、AI 英雄主义时代已过去 [播客]:https://www.bestblogs.dev/podcast/a4391a3 · Anthropic 推出 Claude Managed Agents,助力规模化部署:https://www.bestblogs.dev/status/2053868595394879553 · Andrej Karpathy 谈人机交互的未来:从文本到交互式神经视频:https://www.bestblogs.dev/status/2053872850101285137 · 我们刚过了人类最后一个劳动节?AI 新职业的八个变化:https://www.bestblogs.dev/article/9042fa70 · Pinterest 如何构建生产级 MCP 生态系统:https://www.bestblogs.dev/article/dcf387de · SocialReasoning Bench 揭示当前 AI 智能体的局限性:https://www.bestblogs.dev/article/d1e95073 · 再也无需手写项目更新:Notion 的 AI 赋能工程会议 [视频]:https://www.bestblogs.dev/video/121c5d7 · Netflix 借助 Apache Druid 的区间感知缓存,84% 的查询结果来自缓存:https://www.bestblogs.dev/article/8ba3a393 · 深度拆解:AI Agent Harness 的构造:https://www.bestblogs.dev/article/40a5fbba · 在 Anthropic 的读心术之外,大模型黑盒迎来了真正的法医 | Hao 好聊论文:https://www.bestblogs.dev/article/17cd71a0 · PayPal 借助 Cursor 将路线图吞吐量提升 40% · Cursor:https://www.bestblogs.dev/article/839fd633 · 黄金时代论:Marc Andreessen 谈 AI 与劳动力的未来 [视频]:https://www.bestblogs.dev/video/21d8b07 · 裁员潮将持续,直到我们学会发掘 AI 的商业价值:https://www.bestblogs.dev/article/a77fcd78 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev
EP54 · Incorruptible / Agent 持久化 / TTS 架构变革 · 05.11 早报今日精讲 如何打造能穿越时代的公司 | Eric Ries,Lean Startup 作者 [视频] Eric Ries(《精益创业》作者)在新书《Incorruptible》中指出,公司赢了之后往往走向衰落——根本原因不是贪婪,而是结构性「财务重力」将组织不断拉向短期利益。他提出三种结构性防腐剂:公益公司(PBC)章程、信任型治理(以 Anthropic 独立受托人守护使命为例),以及基金会控股模式(诺和诺德百年不变的范例)。核心洞察:「更难的路反而更容易」——越早做出有原则的艰难决定,越能积累信任与结构完整性,带来长期的意外回报。 来自 Lenny's Podcast 持久化 Agent 的两条路:重放模型 vs 快照恢复 — Eric Allam,Trigger.dev [视频] Trigger.dev 联合创始人 Eric Allam 指出,无状态计算的「重放模型」在 AI Agent 长会话场景下已达瓶颈:不断增长的上下文使重放代价呈指数级上升。他提出将持久化拆为两层——上下文日志(Append-only LLM I/O)+ 执行快照(Firecracker 整机 Snapshot/Restore),让 Agent 等待时完全释放计算资源、恢复只需毫秒。这是 Agent 基础设施从事务型迈向会话型的关键架构转变。 来自 AI Engineer 为什么现在的 TTS 模型越来越像 LLM | Samuel Humeau,Mistral [视频] Mistral AI 科学家 Samuel Humeau 系统拆解了 TTS 与 LLM 架构趋同的底层逻辑:音频帧(约 80ms)被 tokenize 为离散 token,用自回归方式预测,延续了与 LLM 完全一致的预训练→对齐→推理时扩展范式。核心用例已从离线朗读转向实时 Agent 交互——流式推送音频包可显著降低感知延迟。Mistral 开源的 TTS 模型正是这一趋势的代表:语言模型走通的那条路,正在被音频生成复刻一遍。 来自 AI Engineer 速览 更多值得关注的内容 · 人工智慧能否自我成長 [视频] — Hung-yi Lee · Harness Engineering:Agent 性能差异的核心在于「外壳」而非模型 — meng shao(@shao__meng) · 分层记忆:智能体的上下文管理 — Sally-Ann Delucia [视频] — AI Engineer · MySQL 9.7:自 8.4 以来首个重大 LTS 版本,将企业级功能引入社区版 — InfoQ · LLM 摘要生成器跳过了识别步骤 — Towards Data Science · 机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场 — 宝玉的分享 · 对 AI 进展的恐慌实属错位 — Marcus on AI 更多推荐 今天额外值得一读的六条 · 给你的聊天智能体加上声音 | Luke Harries,ElevenLabs [视频] — AI Engineer · 图灵奖得主 Sutton 新作:用一个 1967 年的公式,解决流式强化学习一大缺陷 — 机器之心 相关链接 · 如何打造能穿越时代的公司 | Eric Ries,Lean Startup 作者 [视频]:https://www.bestblogs.dev/video/2efe03f · 持久化 Agent 的两条路:重放模型 vs 快照恢复 — Eric Allam,Trigger.dev [视频]:https://www.bestblogs.dev/video/b391d7b · 为什么现在的 TTS 模型越来越像 LLM | Samuel Humeau,Mistral [视频]:https://www.bestblogs.dev/video/c890d80 · 人工智慧能否自我成長 [视频]:https://www.bestblogs.dev/video/71427c0 · Harness Engineering:Agent 性能差异的核心在于「外壳」而非模型:https://www.bestblogs.dev/status/2053456173622530407 · 分层记忆:智能体的上下文管理 — Sally-Ann Delucia [视频]:https://www.bestblogs.dev/video/5db6322 · MySQL 9.7:自 8.4 以来首个重大 LTS 版本,将企业级功能引入社区版:https://www.bestblogs.dev/article/3a4d5bf2 · LLM 摘要生成器跳过了识别步骤:https://www.bestblogs.dev/article/1e7650fc · 机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场:https://www.bestblogs.dev/article/14ebd057 · 对 AI 进展的恐慌实属错位:https://www.bestblogs.dev/article/084f079f · 给你的聊天智能体加上声音 | Luke Harries,ElevenLabs [视频]:https://www.bestblogs.dev/video/b9e8b83 · 图灵奖得主 Sutton 新作:用一个 1967 年的公式,解决流式强化学习一大缺陷:https://www.bestblogs.dev/article/f1e01cf4 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev