今日精讲
使用 Claude 进行计算机和浏览器操作的最佳实践
Anthropic 针对 Claude 4.6 / Opus 4.7 发布权威最佳实践:点击不准的根本原因是截图超过 API 内部尺寸上限后被静默下采样导致坐标系偏移,解法是发送前主动将截图缩放到 1280×720(Opus 4.7 建议 1080p)。全文覆盖安全架构(必须使用专用虚拟机、绝不暴露敏感主机数据)、Browser Use 与 Computer Use 的场景取舍,以及 Agent 循环中人工确认门控的设计原则,是构建任何浏览器或桌面自动化 Agent 前的必读指南。 来自 Claude Blog
在 Windows 上为 Codex 构建安全有效的沙箱
Windows 没有 Linux seccomp 或 macOS Seatbelt 那样开箱即用的沙箱原语,OpenAI 为 Codex 逐一评估了 AppContainer(权限模型过窄)、Windows Sandbox(Home 版不可用、需独立虚拟机)、MIC 完整性标签(改变工作区全局信任模型风险过大)后,选择自研:为 Codex 分配专属 Windows SID 配合写受限令牌,在操作系统层强制只允许向指定目录写入,全程无需管理员权限。这个设计范式对所有需要在 Windows 上隔离文件系统的 Agent 系统都有参考价值。 来自 OpenAI Blog
为生产级 AI 智能体构建评估框架:来自 100+ 次部署的 12 项指标体系
100+ 次企业 AI Agent 生产部署经验提炼的 12 指标框架,覆盖检索(上下文相关性 >0.85、召回率 >0.90)、生成(回答忠实度 >0.95、幻觉率 <2%)、Agent 行为(工具选择准确率 >0.92、执行成功率 >0.98)和生产层(单次成本 <$0.05、P99 <3s)四层。核心教训:MVP 后再补评估框架要花 4-6 周,而基准测试准确率 95% 的 RAG Agent 在真实生产流量上幻觉率可能高达 30%——测试集永远无法覆盖生产流量分布。 来自 Towards Data Science
速览
更多值得关注的内容
· 李想×罗永浩!李想的理想:通过 AI 技术,让普通人也过上富豪的生活 [播客] — 罗永浩的十字路口
· 从头构建多智能体系统学到的经验 — InfoQ
· Databricks 的高性能速率限制 — ByteByteGo Newsletter
· 快手 OneSearch-V2 全量上线,生成式搜索进入「懂你」时代 — 快手技术
· 让 AI Agent 感知浏览器渲染:为 Agent 构建前端验收 Harness — 百度 Geek 说
· Claude 付费计划将包含程序化使用月度专用额度(6 月 15 日起) — ClaudeDevs(@ClaudeDevs)
· #536. 五种多智能体架构类型 [播客] — 跨国串门儿计划
更多推荐
今天额外值得一读的六条
· 积压队列的数学原理:面向队列恢复的容量规划 — InfoQ
· [AINews] 微调时代的终结 — Latent Space
· Browser Run:现已运行于 Cloudflare Containers,速度更快、扩展性更强 — The Cloudflare Blog
相关链接
· 使用 Claude 进行计算机和浏览器操作的最佳实践:www.bestblogs.dev
· 在 Windows 上为 Codex 构建安全有效的沙箱:www.bestblogs.dev
· 为生产级 AI 智能体构建评估框架:来自 100+ 次部署的 12 项指标体系:www.bestblogs.dev
· 李想×罗永浩!李想的理想:通过 AI 技术,让普通人也过上富豪的生活 [播客]:www.bestblogs.dev
· 从头构建多智能体系统学到的经验:www.bestblogs.dev
· Databricks 的高性能速率限制:www.bestblogs.dev
· 快手 OneSearch-V2 全量上线,生成式搜索进入「懂你」时代:www.bestblogs.dev
· 让 AI Agent 感知浏览器渲染:为 Agent 构建前端验收 Harness:www.bestblogs.dev
· Claude 付费计划将包含程序化使用月度专用额度(6 月 15 日起):www.bestblogs.dev
· #536. 五种多智能体架构类型 [播客]:www.bestblogs.dev
· 积压队列的数学原理:面向队列恢复的容量规划:www.bestblogs.dev
· [AINews] 微调时代的终结:www.bestblogs.dev
· Browser Run:现已运行于 Cloudflare Containers,速度更快、扩展性更强:www.bestblogs.dev
BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:bestblogs.dev

