BestBlogs | 小宇宙 - 听播客，上小宇宙

373已订阅

BestBlogs

ginobefun

单集更新

节目详情

EP112 · GPT-Live、Grok 4.5、本地模型编程 · 07-09 早报
[BestBlogs 早报海报] 章节时间戳 * 00:00 开场 * 00:51 精讲：OpenAI GPT-Live 把语音交互接到后台 Agent * 03:17 精讲：Cursor Grok 4.5 面向更长的知识工作 * 05:56 精讲：Birgitta Bockeler 测试本地模型写代码 * 08:13 速览：Claude Cowork、Harness、自适应工程、SkyPilot、Muse * 10:44 补充阅读：鲁豫访谈、快手 Doris、华为芯片、Pragmatic Engineer、Agent 舰队 * 11:47 结语 ★ 精讲一 | OpenAI 发布全双工语音模型 GPT-Live 00:51｜来自 OpenAI News OpenAI 的 GPT-Live 把语音交互从轮流说话推进到全双工架构：模型可以边听边说、在需要时保持沉默或打断，同时把搜索、推理和更复杂的任务交给后台前沿模型处理。它不只是一次语音体验更新，也是在把实时对话和更长程的 Agent 工作流接起来。 ★ 精讲二 | Cursor 发布面向长任务的 Grok 4.5 03:17｜来自 Cursor Blog Cursor 与 SpaceXAI 发布 Grok 4.5，重点不只是模型进入 Cursor，而是训练目标从纯软件工程扩展到数据科学、金融、法律等更宽的知识工作。文章还披露了用分布式 Agent 系统构造困难环境、通过强化学习训练长任务能力的路线，适合观察 AI coding 工具如何走向通用电脑工作。 ★ 精讲三 | 本地模型用于编程的经验 05:56｜来自 Martin Fowler 这篇发布在 Martin Fowler 站点的文章作者是 Birgitta Böckeler。她用本地小模型做 Agentic coding 实验，按内存、速度、工具调用、功能正确性、上下文延续和代码质量建立可行性漏斗。结论很克制：本地模型还远不能替代大模型，但在小而明确、文件范围清楚的任务上已经能进入真实工作流。速览 08:13 更多值得关注的内容 · Claude Cowork 在网页和移动端上线： anywhere 都可传递工作 | Anthropic 的 Claude — Claude Blog · 如果 Agent 的 Harness 比模型本身更重要会怎样？ [视频] — AI Engineer · 超越固定 Harness：走向运行时自适应的 AI 工程 [视频] — AI Engineer · 在任何云上运行 AI 工作负载，在 Hugging Face 上存储：使用 SkyPilot 的零出口存储 — Hugging Face - Blog · C4N 网络与存储优化型虚拟机 — Google Cloud Blog · Meta 推出智能体图像模型 Muse Image 和视频模型 Muse Video — AI at Meta Blog · 构建让人保持判断力的 AI 系统，而不是只会点批准的流程 [视频] — AI Engineer 补充阅读 10:44 今天额外值得一读的几条 · S9E5 鲁豫对话陈玉亭 | 失去一切之前，我必须成为「白眼狼」 [播客] — 岩中花述 · 快手 AB 场景提速 145 倍，从 Spark 到 Apache Doris 的加速实践 — InfoQ 中文 · 华为「爆改」5nm 芯片 — 腾讯科技 · The Pragmatic Engineer AMA：Gergely Orosz 谈 AI 时代的软件工程职业与专业判断 [视频] — The Pragmatic Engineer · 三台机器上的 AI 智能体舰队：真正坏掉的环节 [视频] — AI Engineer · GPT-5.6 Sol 将于本周四公开发布 — OpenAI(@OpenAI) 相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-09 · OpenAI 发布全双工语音模型 GPT-Live：https://www.bestblogs.dev/article/3776dd8a · Cursor 发布面向长任务的 Grok 4.5：https://www.bestblogs.dev/article/830bd872 · 本地模型用于编程的经验：https://www.bestblogs.dev/article/2bf41e53 · Claude Cowork 在网页和移动端上线： anywhere 都可传递工作 | Anthropic 的 Claude：https://www.bestblogs.dev/article/c32cfa26 · 如果 Agent 的 Harness 比模型本身更重要会怎样？ [视频]：https://www.bestblogs.dev/video/91b7a2c · 超越固定 Harness：走向运行时自适应的 AI 工程 [视频]：https://www.bestblogs.dev/video/df8499a · 在任何云上运行 AI 工作负载，在 Hugging Face 上存储：使用 SkyPilot 的零出口存储：https://www.bestblogs.dev/article/923d7742 · C4N 网络与存储优化型虚拟机：https://www.bestblogs.dev/article/c4c2d624 · Meta 推出智能体图像模型 Muse Image 和视频模型 Muse Video：https://www.bestblogs.dev/article/56aaf616 · 构建让人保持判断力的 AI 系统，而不是只会点批准的流程 [视频]：https://www.bestblogs.dev/video/fcb6bc4 · S9E5 鲁豫对话陈玉亭 | 失去一切之前，我必须成为「白眼狼」 [播客]：https://www.bestblogs.dev/podcast/5c03d78 · 快手 AB 场景提速 145 倍，从 Spark 到 Apache Doris 的加速实践：https://www.bestblogs.dev/article/96119afc · 华为「爆改」5nm 芯片：https://www.bestblogs.dev/article/c27c6c63 · The Pragmatic Engineer AMA：Gergely Orosz 谈 AI 时代的软件工程职业与专业判断 [视频]：https://www.bestblogs.dev/video/fc28ca8 · 三台机器上的 AI 智能体舰队：真正坏掉的环节 [视频]：https://www.bestblogs.dev/video/ed21f4e · GPT-5.6 Sol 将于本周四公开发布：https://www.bestblogs.dev/status/2074704958419792299 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验和关注我们。 [关注我们]
12分钟 · 10小时前
36
0
EP111 · GEO 仪表盘 / AI 工程化 / 模型工作空间 · 07-08 早报
★ 精讲一 | 称量烟雾：为什么 GEO 仪表盘基本无用 — Better Than Good. 来自 Hacker News GEO 仪表盘正在成为 AI 搜索时代的新焦虑入口，但文章用多项研究和行业案例指出：品牌在 ChatGPT、Claude 等回答里的排名高度随机，很多指标既没有真实查询量，也缺少业务转化验证。它更适合作为今天的第一条，因为它提醒团队把注意力从昂贵仪表盘转回可验证的基础工作。 ★ 精讲二 | 从「不敢发」到「天天发」：AI Agent 时代的 CI/CD 生存指南来自阿里技术阿里技术这篇把 AI Agent 写代码后的发布信任问题讲得很具体：数十万行 Go 代码、数百个命令、上百个真实 API 冒烟用例和近三千行 CI 配置，如何支撑最近 30 天几乎每个工作日发版。它的价值不在理念，而在把分层门禁、动态冒烟、CI 历史反馈和灰度 telemetry 变成可审计流程。 ★ 精讲三 | 从 Vibe Coding 到 Harness—— 一套大仓 AI 工程化实战来自腾讯技术工程腾讯技术工程这篇从另一个角度补上 AI 工程化全链路：在 30 多个微服务、10 多个前端微应用的大仓里，AI 不能只会写代码，还要读 PRD、对齐方案、跑沙箱接口测试、补门禁脚本并交付 MR。它和阿里 CI/CD 一起构成今天更聚焦的主线：AI 研发不是模型能力秀，而是工程纪律。速览更多值得关注的内容 · sqlite-utils 4.0 发布，引入数据库模式迁移功能 — Simon Willison's Weblog · 语言模型中的全局工作空间 — Anthropic Research · Loop Engineering 实战：实现从日志扫描到预发部署的全自主闭环 — 阿里云开发者 · EdgeBench：衡量真实世界环境学习，发现新 Scaling Law — 字节跳动 Seed · 使用最终 Token 偏好优化减少灾难循环 — Blog — Hacker News · 走进 Zipline 的自治系统：从无人机配送到自动化物流基础设施 [视频] — Sequoia Capital · 施耐德电气如何使用 LangSmith 构建 LLMOps 基础 — LangChain Blog 补充阅读今天额外值得一读的几条 · 纯 Vibe Coding 做大项目，一定会塌掉 [播客] — AI 炼金术 · 在太空中鉴定微生物 — Towards Data Science · 我们如何教一个小型 LLM 抛弃 68% 的 RAG 上下文 - kapa.ai - 即时 AI 回答技术问题 — Hacker News · Atari Jaguar 上的 Linux。没错，是真的。 — Hacker News · 神经网络在没有传统引擎的情况下玩完完整的 Rocket League 比赛 — The Rundown AI(@TheRundownAI) · 一个哈佛硕士在货代公司「装龙虾」后的顿悟：AI 根本进不去真实的中国工厂 — 非凡产研 · SWE-Marathon：用项目级评测检验编码智能体的真实工程能力 [视频] — AI Engineer 相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-08 · 称量烟雾：为什么 GEO 仪表盘基本无用 — Better Than Good.：https://www.bestblogs.dev/article/41258044 · 从「不敢发」到「天天发」：AI Agent 时代的 CI/CD 生存指南：https://www.bestblogs.dev/article/1b366699 · 从 Vibe Coding 到 Harness—— 一套大仓 AI 工程化实战：https://www.bestblogs.dev/article/889f311c · sqlite-utils 4.0 发布，引入数据库模式迁移功能：https://www.bestblogs.dev/article/7fb52638 · 语言模型中的全局工作空间：https://www.bestblogs.dev/article/1ba9dc94 · Loop Engineering 实战：实现从日志扫描到预发部署的全自主闭环：https://www.bestblogs.dev/article/adfa3571 · EdgeBench：衡量真实世界环境学习，发现新 Scaling Law：https://www.bestblogs.dev/article/ce3be9a0 · 使用最终 Token 偏好优化减少灾难循环 — Blog：https://www.bestblogs.dev/article/70a066b1 · 走进 Zipline 的自治系统：从无人机配送到自动化物流基础设施 [视频]：https://www.bestblogs.dev/video/c8fe047 · 施耐德电气如何使用 LangSmith 构建 LLMOps 基础：https://www.bestblogs.dev/article/8ffb7fcd · 纯 Vibe Coding 做大项目，一定会塌掉 [播客]：https://www.bestblogs.dev/podcast/aa31872 · 在太空中鉴定微生物：https://www.bestblogs.dev/article/84d0997d · 我们如何教一个小型 LLM 抛弃 68% 的 RAG 上下文 - kapa.ai - 即时 AI 回答技术问题：https://www.bestblogs.dev/article/9b9c1b6c · Atari Jaguar 上的 Linux。没错，是真的。：https://www.bestblogs.dev/article/ac0ac3cb · 神经网络在没有传统引擎的情况下玩完完整的 Rocket League 比赛：https://www.bestblogs.dev/status/2074184559768277398 · 一个哈佛硕士在货代公司「装龙虾」后的顿悟：AI 根本进不去真实的中国工厂：https://www.bestblogs.dev/article/ad44c9d0 · SWE-Marathon：用项目级评测检验编码智能体的真实工程能力 [视频]：https://www.bestblogs.dev/video/6ffccd2 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
13分钟 · 1 天前
58
0
EP110 · 混元 Hy3、Claude J-space、AI 自我验证 · 07-07 早报
★ 精讲一 | 腾讯混元 Hy3 发布：Agent 能力和产品体验跃升来自腾讯混元腾讯混元 Hy3 从 preview 走到正式版，重点不是榜单宣传，而是 Agent 与真实生产力任务的稳定性：270 位专家盲测、幻觉率下降、多轮承接改善，以及 Apache 2.0 开源和更低 API 价格，给国产模型落地一个可核查样本，也适合观察模型如何进入办公、开发和游戏场景。 ★ 精讲二 | Claude 心智中心的 J-space：Anthropic 如何观察隐藏推理与安全信号 [视频] 来自 Anthropic Anthropic 用 Jacobian 找到 Claude 可被语言描述的内部活动集合 J-space：它像工作区，暴露未说出口的中间步骤与联想。关掉它后模型仍能流畅回答简单问题，却会在需推理匹配语言的任务上失效；监控它也可能帮助发现隐藏操纵和假数据等安全信号。 ★ 精讲三 | E242｜最快半年 AI 跑通自进化？与陈天桥首席科学家聊聊硅谷模型必争之地 [播客] 来自硅谷 101 硅谷 101 这期把 AI 自我进化从概念拉回工程问题：嘉宾认为最快半年可跑通一次闭环，但持续递归提升的关键是自我验证，避免递归漂移。Apodex 的发现模型、多个子 Agent 互验、科学品味训练，都是理解下一阶段模型竞争的好入口。速览更多值得关注的内容 · 您的 Worker 现在可以拥有前置缓存 — The Cloudflare Blog · 自动训练研究框架：让智能体接手大模型优化 — 阿里云开发者 · 为什么 Agent 时代，大家都在做 CLI？ — 阿里技术 · AI 写代码越来越快，质量谁来守？网盘主端 FE 的 AICR 准入实践 — 百度 Geek 说 · Builders Unscripted：Derya Unutmaz 谈 Codex、生物学与个性化医疗的数字孪生 [视频] — OpenAI · 戛纳金狮首届 AI Craft 落定：可灵给出全球顶级商业广告交付答卷 — 腾讯科技 · AI 季报 26Q2：从 coding 到 RSI，强者愈强的未来？ — 晚点 LatePost 补充阅读今天额外值得一读的几条 · 扎克伯格，把 AI 牛市吓了一跳 — 36 氪 · 别再按平均分给智能体配置排名了 — Towards Data Science · Alessio Finelli 如何用 Linear、Symphony 和 Codex 在手机上管理自治编程智能体 [视频] — How I AI · 读书：四种配速，取景框，人是滤器，冲刷神经网络 [播客] — 面基 · Fable 5 在 Vending-Bench 上的失行为，带有可否认性 | Andon Labs — Hacker News · 每个 AI 产品背后的隐藏工程：软件工程师应知晓的内容 — freeCodeCamp 相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-07 · 腾讯混元 Hy3 发布：Agent 能力和产品体验跃升：https://www.bestblogs.dev/article/b6b95110 · Claude 心智中心的 J-space：Anthropic 如何观察隐藏推理与安全信号 [视频]：https://www.bestblogs.dev/video/b5b7cd2 · E242｜最快半年 AI 跑通自进化？与陈天桥首席科学家聊聊硅谷模型必争之地 [播客]：https://www.bestblogs.dev/podcast/35f900c · 您的 Worker 现在可以拥有前置缓存：https://www.bestblogs.dev/article/cc2671b8 · 自动训练研究框架：让智能体接手大模型优化：https://www.bestblogs.dev/article/8e47d261 · 为什么 Agent 时代，大家都在做 CLI？：https://www.bestblogs.dev/article/c5a2f452 · AI 写代码越来越快，质量谁来守？网盘主端 FE 的 AICR 准入实践：https://www.bestblogs.dev/article/dbda8d9d · Builders Unscripted：Derya Unutmaz 谈 Codex、生物学与个性化医疗的数字孪生 [视频]：https://www.bestblogs.dev/video/7624309 · 戛纳金狮首届 AI Craft 落定：可灵给出全球顶级商业广告交付答卷：https://www.bestblogs.dev/article/83e7bd9d · AI 季报 26Q2：从 coding 到 RSI，强者愈强的未来？：https://www.bestblogs.dev/article/73a960c1 · 扎克伯格，把 AI 牛市吓了一跳：https://www.bestblogs.dev/article/8d1bf4ad · 别再按平均分给智能体配置排名了：https://www.bestblogs.dev/article/276eaf96 · Alessio Finelli 如何用 Linear、Symphony 和 Codex 在手机上管理自治编程智能体 [视频]：https://www.bestblogs.dev/video/4acafbe · 读书：四种配速，取景框，人是滤器，冲刷神经网络 [播客]：https://www.bestblogs.dev/podcast/dcf73a2 · Fable 5 在 Vending-Bench 上的失行为，带有可否认性 | Andon Labs：https://www.bestblogs.dev/article/fa776262 · 每个 AI 产品背后的隐藏工程：软件工程师应知晓的内容：https://www.bestblogs.dev/article/cf7e02b2 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
13分钟 · 2天前
59
0
EP109 · MCP apps、智能体持续学习、Noi 调试 · 07-06 早报
★ 精讲一 | MCP apps、应用商店与下一代软件入口：AI 客户端如何承载交互式产品 [视频] 来自 AI Engineer 作者 Pietro Zullo 在 AI Engineer 的分享提出 MCP apps 是 MCP 服务器从只返回 JSON 的后端，升级为 AI 客户端内的交互界面：模型调用工具后，服务器可返回沙箱化的 iframe 组件，并继续与宿主通信、更新模型可见状态。他还指出 ChatGPT、Claude、Cursor 正成为可自服务的分发渠道，用户表达意图时客户端可动态发现连接器，让产品在用户需要时被命中。结尾建议尽快上线一个 MCP app，因为更多软件交互可能向这里迁移。 ★ 精讲二 | AI 智能体的持续学习：把失败转化为可验证、可持久的改进 [视频] 来自 AI Engineer 作者 Soheil Feizi 在 AI Engineer 演讲中把智能体持续学习拆成两个难题：有用的反馈从哪来，到手后该改哪一层。他强调生产日志不是学习环境，必须从会话中推断出可执行的模拟与评估环境，失败才能反复验证。他还对比模型层（SFT、DPO、LoRA）、harness 层与记忆层三类更新的代价与风险，提出每次修复都应可重放、对历史学习环境做回归。 ★ 精讲三 | Noi 编程实战：Fable 没那么强，GPT 也没那么弱来自浮之静作者浮之静在 Noi（转向 AgentOS 的本地 Agent 底座）里集成 Chrome 插件时撞上白屏：日志提示消息通道异常，根因却在后台运行时生命周期。文章用 Google Translate、Tampermonkey、AdBlock 三类典型插件还原插件页从识别到渲染的长链路，记录 Codex 用一次 A/B（保留原生 runtime messaging）把问题从消灭日志推进到因果闭环，印证「报错发生在消息层，不代表根因就在消息层」。结论落在调试方法论：复杂 bug 多是责任链断裂，要设计能改变判断权重的实验。速览更多值得关注的内容 · 开源工具 sqlite-utils 的新版本由 Claude Fable 编写，作者约花费 149 美元 — Simon Willison's Weblog · 协议窥探：Apple AirDrop 和 Android Quick Share 近距离传输协议的系统性漏洞研究 — Hacker News · 全球首次基于可控存内计算！忆阻器神经动力学芯片面世，0.43 秒搞定大脑表面建模 — DeepTech 深科技 · 开发日志 ⚡ Zig 编程语言 — Hacker News · Anthropic 工程师：他们到底怎么用 Claude 工作丨 How I AI — 晚点再听 LaterCast · 刚刚，LeCun 团队让世界模型学会持续学习！ — 量子位 · Logto：开源认证平台——前红杉运营合伙人打造的 Okta 替代方案 — Nav Toor(@heynavtoor) 补充阅读今天额外值得一读的几条 · 上线之后缺失的一层：让生产 AI 智能体持续变好的反馈闭环 [视频] — AI Engineer · 我不懂 Rust，我的 AI 却用它重写了 PHP 解释器 - ekinertac — Hacker News · 《吾辈如神》：AI 增强创造力的 10 条法则 | 赠书福利 — InfoQ 中文 · 更好的模型，更差的工具 — Armin Ronacher's Thoughts and Writings · 「超越极限」：一百万颗卫星和太空镜子对夜空构成严重威胁 — Hacker News · 2026 游戏行业最绝望的战争 — 游戏葡萄相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-06 · MCP apps、应用商店与下一代软件入口：AI 客户端如何承载交互式产品 [视频]：https://www.bestblogs.dev/video/7036255 · AI 智能体的持续学习：把失败转化为可验证、可持久的改进 [视频]：https://www.bestblogs.dev/video/f7af312 · Noi 编程实战：Fable 没那么强，GPT 也没那么弱：https://www.bestblogs.dev/article/a73b96a5 · 开源工具 sqlite-utils 的新版本由 Claude Fable 编写，作者约花费 149 美元：https://www.bestblogs.dev/article/353c5ea1 · 协议窥探：Apple AirDrop 和 Android Quick Share 近距离传输协议的系统性漏洞研究：https://www.bestblogs.dev/article/6a5015b3 · 全球首次基于可控存内计算！忆阻器神经动力学芯片面世，0.43 秒搞定大脑表面建模：https://www.bestblogs.dev/article/c9425e45 · 开发日志 ⚡ Zig 编程语言：https://www.bestblogs.dev/article/685c8491 · Anthropic 工程师：他们到底怎么用 Claude 工作丨 How I AI：https://www.bestblogs.dev/article/ab2c69d3 · 刚刚，LeCun 团队让世界模型学会持续学习！：https://www.bestblogs.dev/article/f7f96333 · Logto：开源认证平台——前红杉运营合伙人打造的 Okta 替代方案：https://www.bestblogs.dev/status/2073338541296517502 · 上线之后缺失的一层：让生产 AI 智能体持续变好的反馈闭环 [视频]：https://www.bestblogs.dev/video/3e9e3cc · 我不懂 Rust，我的 AI 却用它重写了 PHP 解释器 - ekinertac：https://www.bestblogs.dev/article/7689c9e4 · 《吾辈如神》：AI 增强创造力的 10 条法则 | 赠书福利：https://www.bestblogs.dev/article/04df0157 · 更好的模型，更差的工具：https://www.bestblogs.dev/article/f23baa5b · 「超越极限」：一百万颗卫星和太空镜子对夜空构成严重威胁：https://www.bestblogs.dev/article/b614bec6 · 2026 游戏行业最绝望的战争：https://www.bestblogs.dev/article/67b6430b 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
12分钟 · 3天前
66
0
EP108 · 智能体临界点、缓存命中率 90%、RAG 类型化合约 · 07-05 早报
★ 精讲一 | 个人 AGI 的理想界面是现在使用的界面？OpenAI 总裁：界面将会消失，算力永远不够！我们正处在智能体时代的边缘来自 51CTO 技术栈 Greg Brockman 用具体信号撑起对智能体时代的判断：OpenAI 内部 Codex 普及率已和 Slack 相当，公关同事用它排活动座位表；模型上下文从 2023 年的 2-4K tokens 涨到 52M。他真正的论点是转折不在新模型，而在从对话式智能走向替你办事的智能体，信任会成为核心产品差异化。算力永远不够、界面将消失这些判断都很扎实，做 AI 产品的人值得细读。 ★ 精讲二 | 为什么大模型的缓存命中率能到 90%？来自阿里技术这篇把大模型缓存命中率常年 90% 这一现象讲透了：90% 不是某家厂商的黑科技，而是 KV Cache + Prefix Caching 叠加 agent 式只追加调用模式后的必然结果。文章用命中率约等于 (T-1)/(T+1) 解释会话越长约命中，并指出换模型、改系统提示、路由打散前缀会把命中打到 50%。结尾的反直觉提醒尤其值得读：高命中是整段重发的副产物，真要省钱要在低命中流量上做文章。 ★ 精讲三 | 停止从 RAG 返回文本：防止幻觉的类型化答案合约来自 Towards Data Science 这篇写给企业 RAG 实战派。核心论点：模型必然幻觉，加 prompt 让它别乱编没用，有效的是用类型化 answer schema 当合约，把每字段钉死让模型没发挥空间。文章反复强调一条原则——能确定性计算的就别交给 LLM，金额比较先抽取再在 Python 里算。最反直觉的是完整性这个关键信号故意不问模型，而是靠检索多拉一页 overlap 来判定，因为模型只看眼前页面察觉不到列表被截断。速览更多值得关注的内容 · Proof of Human：如何验证一个人是真实且唯一的 — ByteByteGo Newsletter · Leanstral 1.5：为所有人提供丰富的证明 — Hacker News · 加拉帕戈斯岛的智能体测试流程、LLM 基准测试及智能体编程相关笔记 — Hacker News · SGLang 复盘：Coding Agent 开始进入 AI Infra 开发循环 — AINLP · 文件系统是 Agent 的省钱答案？token 消耗降低 45%，费用减少 39% — 新智元 · a16z 最新一批 AI 项目：AI 创业，开始往脏活、累活里卷了 — 十字路口 Crossing · Kimi 坐上全球程序员的工位！GitHub Copilot 模型菜单中第一次出现开放权重模型 — 51CTO 技术栈补充阅读今天额外值得一读的几条 · 流形约束推理新思路！傅聪团队联合厦大提出 ManCAR，自适应测试时计算带来 46%排序增益 — InfoQ 中文 · GitHub - kerlenton/mcpsnoop：MCP 版 Wireshark。一个透明代理，在你的终端中实时展示 AI 客户端与 MCP 服务器之间的每一次真实工具调用。 — Hacker News · Vercel 的 Andrew Qu：智能体是一种新的软件形式，Vercel 自身正变成智能体 — Latent.Space(@latentspacepod) · 快手 AgentX：推荐系统开始自我迭代 — 快手技术 · ICML 2026｜让 Agent 真正协同作战：GoS 为多智能体推理构建共享信念状态 — 青稞 AI · Anthropic 联合创始人 Jack Clark：AI 正在让公司内部发生「相变」，你的工作还安全吗？ [播客] — 跨国串门儿计划相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-05 · 个人 AGI 的理想界面是现在使用的界面？OpenAI 总裁：界面将会消失，算力永远不够！我们正处在智能体时代的边缘：https://www.bestblogs.dev/article/bfb5577d · 为什么大模型的缓存命中率能到 90%？：https://www.bestblogs.dev/article/183f5b24 · 停止从 RAG 返回文本：防止幻觉的类型化答案合约：https://www.bestblogs.dev/article/0ba407e1 · Proof of Human：如何验证一个人是真实且唯一的：https://www.bestblogs.dev/article/83738666 · Leanstral 1.5：为所有人提供丰富的证明：https://www.bestblogs.dev/article/efabba96 · 加拉帕戈斯岛的智能体测试流程、LLM 基准测试及智能体编程相关笔记：https://www.bestblogs.dev/article/116a35cc · SGLang 复盘：Coding Agent 开始进入 AI Infra 开发循环：https://www.bestblogs.dev/article/1a435618 · 文件系统是 Agent 的省钱答案？token 消耗降低 45%，费用减少 39%：https://www.bestblogs.dev/article/de6d2258 · a16z 最新一批 AI 项目：AI 创业，开始往脏活、累活里卷了：https://www.bestblogs.dev/article/141badb5 · Kimi 坐上全球程序员的工位！GitHub Copilot 模型菜单中第一次出现开放权重模型：https://www.bestblogs.dev/article/c4fe6624 · 流形约束推理新思路！傅聪团队联合厦大提出 ManCAR，自适应测试时计算带来 46%排序增益：https://www.bestblogs.dev/article/1ca97990 · GitHub - kerlenton/mcpsnoop：MCP 版 Wireshark。一个透明代理，在你的终端中实时展示 AI 客户端与 MCP 服务器之间的每一次真实工具调用。：https://www.bestblogs.dev/article/d2bbd108 · Vercel 的 Andrew Qu：智能体是一种新的软件形式，Vercel 自身正变成智能体：https://www.bestblogs.dev/status/2072843022572953963 · 快手 AgentX：推荐系统开始自我迭代：https://www.bestblogs.dev/article/3662beff · ICML 2026｜让 Agent 真正协同作战：GoS 为多智能体推理构建共享信念状态：https://www.bestblogs.dev/article/e4f95518 · Anthropic 联合创始人 Jack Clark：AI 正在让公司内部发生「相变」，你的工作还安全吗？ [播客]：https://www.bestblogs.dev/podcast/7cd702c 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
13分钟 · 4天前
52
0
EP107 · 智能体自主性分级、亿级语音 AI、代码廉价化 · 07-04 早报
★ 精讲一 | 智能体自主性级别来自 Elevate 本文跳出 Steve Yegge 的单轴自主性阶梯，改用代理与编排双轴，把智能体自主性划成 Assist 到 Managed-by-exception 六级。作者援引 Anthropic 对约 40 万场 Claude Code 会话的分析——人做约 70% 的规划、模型做约 80% 的执行——指出高自主性不是把人踢出循环，而是从逐步执行转为决定方向。落点是校准式自主：验证永远是瓶颈，每次派发前先立契约（目标、范围、停止条件、证据、预算），并警惕自主性当勋章、许可洗白等四种反模式。 ★ 精讲二 | OpenAI 如何为 9 亿用户交付低延迟语音 AI 来自 ByteByteGo Newsletter OpenAI 每周为 9 亿用户提供语音 AI，底层走 WebRTC——但 WebRTC 为稳定 IP 设计，与 Kubernetes 可抛弃 Pod 天生冲突，带来端口耗尽与状态粘滞。解法是把协议栈拆两半：边缘无状态 relay 只做包路由，后方有状态 transceiver 持有 ICE/DTLS/SRTP 重状态。关键一招是用握手阶段本就交换的 ICE ufrag 当路由键，relay 从首个 STUN 包读出 ufrag 即可转发，无需热路径查库。团队拒绝 SFU（流量是 1:1）和 TURN（多余往返），用 Go 用户态加 SO_REUSEPORT 扛住了全球实时媒体。 ★ 精讲三 | Code is cheap：AI Native 时代，程序员如何提升五倍 coding 效率来自阿里云开发者作者以亲测开场：20 天让 AI 提交 70 万行代码、10 个项目并行，由此提出 Harness 方法论——人定方向、模型推进。它直击大模型两个底层事实：概率生成会产出 best-practice slop 式套话，上下文有限带来 Lost-in-the-Middle 式衰减。两件核心武器是水流理论（把控制点上移到边界、checkpoint、风险通道）与最小混沌单元（配 spec、codemap、new-chat 三件套，小到可检查、大到可自治）；验收靠五层 safety net，作者甚至一行代码都不看、只盯证据链。速览更多值得关注的内容 · GitHub - jamesob/local-llm: 我在本地运行 LLMs 的全部知识 — Hacker News · Fable 5 网络安全保障措施及越狱框架的更多细节 — Anthropic News · RAG 检索中那些未被教授的课程：余弦并非基础 — Towards Data Science · 一场美国的隐私紧急情况：Cynthia Dwork 等人的客座文章 — Hacker News · Agent 评测：方法论与体系设计 — 阿里技术 · 我用 Codex 重写了同事维护三年的代码，他没说谢谢——而是找了领导 — 掘金本周最热 · FaceMind 陆弘远：在世界模型的「原点」，做一个「非共识」的 Neolab — 十字路口 Crossing 补充阅读今天额外值得一读的几条 · 生产环境已中招！JDK 25 的 G1GC 存在静默数据损坏 Bug — dbaplus 社群 · 对谈长安智驾陶吉：一段式端到端没有捷径，只有「边开车边换轮子」 — 晚点 LatePost · OpenAI 的 GPT-5.6 系列、训练机器人的新方法、模型调用模型 — The Batch | DeepLearning.AI · LLM 维基过度工程化 — — 我用纯 Python 编译器替换了我的维基 — Towards Data Science · 从 AI Coding 到 Harness Engineering 的端到端工程开发实践 — 腾讯技术工程 · AIEWF 每日速递：关于自主循环的大辩论与 AI 工程现状 — Latent.Space · 迈向 AI Native：技术团队的范式跃迁与组织进化 — 快手技术 · Loop 世界模型论文登顶 Hugging Face，来自中国一家初创，周鸿祎陆奇都投了 — 量子位相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-04 · 智能体自主性级别：https://www.bestblogs.dev/article/79bb707b · OpenAI 如何为 9 亿用户交付低延迟语音 AI：https://www.bestblogs.dev/article/e085963f · Code is cheap：AI Native 时代，程序员如何提升五倍 coding 效率：https://www.bestblogs.dev/article/c25f459e · GitHub - jamesob/local-llm: 我在本地运行 LLMs 的全部知识：https://www.bestblogs.dev/article/55cb789b · Fable 5 网络安全保障措施及越狱框架的更多细节：https://www.bestblogs.dev/article/7cbe8217 · RAG 检索中那些未被教授的课程：余弦并非基础：https://www.bestblogs.dev/article/303e239e · 一场美国的隐私紧急情况：Cynthia Dwork 等人的客座文章：https://www.bestblogs.dev/article/0182b87d · Agent 评测：方法论与体系设计：https://www.bestblogs.dev/article/f2511732 · 我用 Codex 重写了同事维护三年的代码，他没说谢谢——而是找了领导：https://www.bestblogs.dev/article/d19dfd49 · FaceMind 陆弘远：在世界模型的「原点」，做一个「非共识」的 Neolab：https://www.bestblogs.dev/article/f72f71ad · 生产环境已中招！JDK 25 的 G1GC 存在静默数据损坏 Bug：https://www.bestblogs.dev/article/dca26264 · 对谈长安智驾陶吉：一段式端到端没有捷径，只有「边开车边换轮子」：https://www.bestblogs.dev/article/8cee8f0e · OpenAI 的 GPT-5.6 系列、训练机器人的新方法、模型调用模型：https://www.bestblogs.dev/article/7a8c72c1 · LLM 维基过度工程化 — — 我用纯 Python 编译器替换了我的维基：https://www.bestblogs.dev/article/9bc60a47 · 从 AI Coding 到 Harness Engineering 的端到端工程开发实践：https://www.bestblogs.dev/article/e06a6c5e · AIEWF 每日速递：关于自主循环的大辩论与 AI 工程现状：https://www.bestblogs.dev/article/67489141 · 迈向 AI Native：技术团队的范式跃迁与组织进化：https://www.bestblogs.dev/article/ffecc362 · Loop 世界模型论文登顶 Hugging Face，来自中国一家初创，周鸿祎陆奇都投了：https://www.bestblogs.dev/article/13332dea 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
12分钟 · 5天前
50
0
BestBlogs 精选周刊第 102 期 · 智能的账单
本周亮点模型能力继续提升，但智能从来不是免费的。API 单价只是账单的第一行，推理延迟、上下文搬运、验证系统、Skill 路由、基础设施与人的注意力，都会决定一次任务最终要花多少钱。这一期从 Claude Sonnet 5、GPT-5.6 Sol 和 LongCat-2.0 出发，串联 Spotify、Block、SkillOpt、Cloudflare 与 3Blue1Brown，讨论一个更实用的问题：如何用更少资源交付可验证的价值。时间线 00:00 开场 · 为什么要看清「智能的账单」 01:00 模型单价 · 价格表之外还有 tokenizer、安全与发布成本 02:43 基础设施 · LongCat、DSpark 与多模态生产账单 04:09 成本工程 · 推理毛利、上下文搬运与提示词缓存 06:10 验证系统 · Spotify、Block 与 ADK 2.0 的生产经验 09:22 Skill 账单 · 通用说明书与可训练资产的分水岭 12:24 判断力 · 实现变便宜之后，品味与策展为何更稀缺 15:29 互联网与组织 · Agent 流量、内容付费与中层压力 18:27 收尾 · 本周关键词与下周观察精讲条目模型单价与真实成本 * Claude Sonnet 5 发布 · Anthropic News · https://www.bestblogs.dev/article/eff5a221 * GPT-5.6 Sol 前瞻 · OpenAI News · https://www.bestblogs.dev/article/97e62d58 * Claude Sonnet 5 的 tokenizer 与迁移细节 · Simon Willison · https://www.bestblogs.dev/article/a0f19ea0 模型背后的基础设施 * LongCat-2.0 在国产算力集群上的训练与推理 · 美团技术团队 · https://www.bestblogs.dev/article/ad5a0b93 * DeepSeek DSpark 推理加速 · 爱范儿 · https://www.bestblogs.dev/article/50894bb4 * Nano Banana 2 Lite 与 Gemini Omni Flash · Google DeepMind · https://www.bestblogs.dev/article/e2086adb 从 token 单价到任务总成本 * Token 不经济 · 腾讯研究院 · https://www.bestblogs.dev/article/8f66e3cc * Deep Agents 的提示词缓存 · LangChain Blog · https://www.bestblogs.dev/article/91444258 * AI Coding Agent 的 Token 成本控制 · 腾讯技术工程 · https://www.bestblogs.dev/article/8b9392aa * AI 推理显然是盈利的 · Sean Goedecke · https://www.bestblogs.dev/article/262173e6 验证系统才是生产力 * Spotify 如何让 Agent 在 2000 万行代码库中运行 · Claude · https://www.bestblogs.dev/video/d60d34a * Block 如何让 3500 名工程师走向智能体协作 · AI Engineer · https://www.bestblogs.dev/video/ff1b45c * 为什么我们构建了 ADK 2.0 · Google Developers Blog · https://www.bestblogs.dev/article/76d5c422 * Claude Code 负责人谈验证瓶颈 · Lenny's Podcast · https://www.bestblogs.dev/video/2f4fa0a Skill 的价值与代价 * 不变的 Agent Protocol · 阿里云开发者 · https://www.bestblogs.dev/article/4ab57ca0 * Prompt、Context、Harness 与 Loop 四层工程 · 腾讯云开发者 · https://www.bestblogs.dev/article/99cc9e2f * AI Agent 的 Skill 系统设计 · 大淘宝技术 · https://www.bestblogs.dev/article/970fe1fe * SkillOpt 将 Skill 转化为可训练资产 · Microsoft Research · https://www.bestblogs.dev/article/0dd53848 * 本地 AI 为何正在追赶 · Latent.Space · https://www.bestblogs.dev/article/a6371e93 品味、策展与源头思维 * Codex 负责人谈产品工作的新版图 · Lenny's Podcast · https://www.bestblogs.dev/video/6daf60e * 3Blue1Brown 创始人谈「源头」与「传声筒」 · 跨国串门儿计划 · https://www.bestblogs.dev/podcast/1490738 Agent 重新定价互联网与组织 * Cloudflare CEO 谈机器人流量与互联网商业模式 · 跨国串门儿计划 · https://www.bestblogs.dev/podcast/352bbef * Agent 第 500 天：GUI、Headless、CLI 与 Skill · 十字路口 Crossing · https://www.bestblogs.dev/podcast/113892f * AI 普及正在压垮中层管理者 · HBR · https://www.bestblogs.dev/article/e44268ef 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容，结合你关注的源、兴趣标签和阅读行为，把「我的早报」整理成每天真正适合你的阅读流，不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。完成新用户三步引导送 7 天 Pro 试用；现有 Pro 用户邀请朋友，双方各得 7 天 Pro，单人上限 28 天。相关链接 * 本期周刊 · https://www.bestblogs.dev/newsletter/issue102 * BestBlogs · https://bestblogs.dev
20分钟 · 6天前
45
0
EP106 · Agent Protocol、循环工程、自我改进外环 · 07-03 早报
★ 精讲一 | 相比层出不穷的 Agent 框架，不变的 Agent Protocol 是什么来自阿里云开发者这篇来自阿里云开发者的长文，作者不想每换一个 Agent 框架就重新学习一套对象体系，转而用 Protocol 视角把 Agent Runtime 拆成 Thread、Run、Step、Event、Artifact、Checkpoint 这 6 个稳定对象。核心判断是框架会更迭，但任务生命周期、状态持久化、中断恢复这些问题不会消失；状态持久化是区分玩具和生产的分水岭，Error-as-Data 优于 Error-as-Exception，MCP 让工具层最可能先标准化。文中详尽的跨框架映射表，值得做 Agent 系统设计时拿来对照。 ★ 精讲二 | Loop Engineering 又是啥？一文讲清企业 Agent 落地的四层工程进化论来自腾讯云开发者腾讯云开发者这篇把 AI 工程范式迁移拆成 Prompt、Context、Harness、Loop 四层，并强调它们是嵌套关系而非替代。文中引述 Mitchell Hashimoto 的 engineer the harness、Boris Cherny「我不再 prompt Claude 了，我设计循环来 prompt Claude」，以及 OpenAI 用 Codex 在五个月内构建约一百万行代码、零行手写的案例。作者认为 2026 年大多数企业应全力投入 L3，跳过 L3 直接搞 L4 是最危险的错误，并诚实列出 Loop 引入的成本不可预测、认知投降等新风险。适合想判断该在哪层投入的技术负责人。 ★ 精讲三 | Autoresearch：自我改进智能体背后的反馈循环来自 Latent.Space Latent.Space 这篇访谈对象是 Introspection 创始人 Roland Gavrilescu，他此前在 xAI 做 agent 基础设施。访谈围绕 autoresearch：构建一个 outer loop，让 agents 维护和改进主系统本身。他提出三种模式——the loop is the product、agent recipe、以及如何让系统更好更便宜——并区分了与用户交互的 inner loop 和负责研究维护的 outer loop。建议工程师从 signals、成本控制、跟随研究三步入手，把产品组织变成微型研究室。适合关注 self-improving agent 落地的读者。速览更多值得关注的内容 · 对话探月校长王熙乔：AI 时代的教育者、十年沉浮，与人类文明的下一步 — 硅谷 101 · 如何用 TypeScript 守卫工具保护你的 JavaScript 应用免受不安全数据侵害 — freeCodeCamp · Codex 负责人：「所有人都是 builder」是个很糟糕的主意 — Founder Park · 171: 【AI 季报 26Q2】从 coding 到 RSI，强者愈强的未来？ [播客] — 晚点聊 LateTalk · 萨提亚·纳德拉宣布微软「前沿公司」计划，推动 AI 能力普及化 — Satya Nadella(@satyanadella) · 时间序列 LLM，原理解析以 t0-alpha 为例 — Towards Data Science · RAG 问题解析中被忽视的教训：在搜索前构建结构 — Towards Data Science 补充阅读今天额外值得一读的几条 · Amazon SageMaker AI 中多轮强化学习的最佳实践 | Amazon Web Services — AWS Artificial Intelligence · GitHub 如何利用密钥扫描实现「收件箱清零」 — The GitHub Blog · 一个层就足够吗？训练单个 Transformer 层可媲美全参数 RL 训练 — Hacker News · Netflix 基于服务级别优先级的负载丢弃策略提升系统可靠性 — InfoQ · 如何将 AI 编程的混乱转化为可复制的实战手册？ — Stack Overflow Blog · Senior SWE-Bench — Hacker News 相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-03 · 相比层出不穷的 Agent 框架，不变的 Agent Protocol 是什么：https://www.bestblogs.dev/article/4ab57ca0 · Loop Engineering 又是啥？一文讲清企业 Agent 落地的四层工程进化论：https://www.bestblogs.dev/article/99cc9e2f · Autoresearch：自我改进智能体背后的反馈循环：https://www.bestblogs.dev/article/de37a7ef · 对话探月校长王熙乔：AI 时代的教育者、十年沉浮，与人类文明的下一步：https://www.bestblogs.dev/article/4ffb441b · 如何用 TypeScript 守卫工具保护你的 JavaScript 应用免受不安全数据侵害：https://www.bestblogs.dev/article/f5920e7b · Codex 负责人：「所有人都是 builder」是个很糟糕的主意：https://www.bestblogs.dev/article/a4ae3238 · 171: 【AI 季报 26Q2】从 coding 到 RSI，强者愈强的未来？ [播客]：https://www.bestblogs.dev/podcast/9887ca1 · 萨提亚·纳德拉宣布微软「前沿公司」计划，推动 AI 能力普及化：https://www.bestblogs.dev/status/2072708957077176563 · 时间序列 LLM，原理解析以 t0-alpha 为例：https://www.bestblogs.dev/article/fcd4e39a · RAG 问题解析中被忽视的教训：在搜索前构建结构：https://www.bestblogs.dev/article/aaf2d6fd · Amazon SageMaker AI 中多轮强化学习的最佳实践 | Amazon Web Services：https://www.bestblogs.dev/article/d02c0101 · GitHub 如何利用密钥扫描实现「收件箱清零」：https://www.bestblogs.dev/article/8c80e82f · 一个层就足够吗？训练单个 Transformer 层可媲美全参数 RL 训练：https://www.bestblogs.dev/article/4334e924 · Netflix 基于服务级别优先级的负载丢弃策略提升系统可靠性：https://www.bestblogs.dev/article/53e4db7a · 如何将 AI 编程的混乱转化为可复制的实战手册？：https://www.bestblogs.dev/article/25a2ed29 · Senior SWE-Bench：https://www.bestblogs.dev/article/5db295d3 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
14分钟 · 6天前
65
0
EP105 · 本地 AI、LongCat-2.0、美图 AI 方法论 · 07-02 早报
★ 精讲一 | Ahmad Osman 谈本地 AI 为何正在追赶来自 Latent.Space Latent.Space 专访 Osmantic 创始人 Ahmad Osman，这位长期倡导本地 AI 的开发者在 AIEWF 办了两场爆满 workshop。他判断开源与闭源前沿模型的差距正持续缩小，目前大约落后 4 到 8 个月。他用朋友买 RTX 5090 跑 Qwen 3.5 改 RGB 灯光失败的例子说明：本地 AI 缺的不是模型，而是搜索、工具、Agent 等完整栈。他从企业主权算力和混合架构角度，讲清了为什么本地 AI 正被认真当作基础设施。 ★ 精讲二 | 美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型来自美团 · 技术团队美团技术团队官方披露 LongCat-2.0 万亿参数 MoE 模型（总参数 1.6T，平均激活约 48B），在 5 万卡国产算力集群上完成全流程训练与推理。预训练数据超 30T tokens，月均日故障率降低 70% 以上，训练 MFU 提升 1.5 倍。SWE-bench Pro 得分 59.5，超过 GPT-5.5 与 Claude Opus 4.6。原生支持 1M 上下文，已跻身 OpenRouter 全球调用量前三。值得读在于，它是少数把国产算力、万亿 MoE、Agentic Coding 全链路讲透的工程实录。 ★ 精讲三 | 专访美图 CEO 吴欣鸿：做 AI 产品，是一场难以提前策划的游戏来自智能涌现《智能涌现》专访美图 CEO 吴欣鸿。美图 2025 年营收 38.58 亿元、净利润 9.65 亿元（同比 +64.7%），AI 重构的影像设计收入占比从 35% 升至 76.6%。他立规矩：新产品立项到上线不超 1 个月，半年 ARR 须达 10 万美元，且老产品禁止导流。MVLAND 内测两三个月 ARR 就到 10 万美元、现已近 50 万美元。值得读在于，他用自然生长而非策划、热爱而非纯 PMF 的方法论，讲清了一家 2000 人公司如何在 AI 应用层持续跑赢。速览更多值得关注的内容 · 为什么我们构建了 ADK 2.0 — Google Developers Blog · RAG 的上下文工程：每个 RAG 答案背后的四种类型化输入 — Towards Data Science · 高德 GrowLoop：构建感性对话的理性 Benchmark — AI 前线 · 我们团队从 AWS 迁移到 PaaS 的经历 — freeCodeCamp · 人类-AI 交互设计的 39 条原则 — UX Collective · 如何把超级个体的产能，转化成组织能力？ | AI 跃迁者调研 — 腾讯研究院 · AI UITester：AI Native 的 UI 自动化测试新范式｜得物技术 — 得物技术补充阅读今天额外值得一读的几条 · 掌握智能体技术：AI 智能体强化学习 — NVIDIA Technical Blog · AI Agent 的 Skill 系统设计 — 大淘宝技术 · Anthropic 重新部署 Claude Fable 5，配备增强型分类器及政府合作框架 — Anthropic(@AnthropicAI) 相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-02 · Ahmad Osman 谈本地 AI 为何正在追赶：https://www.bestblogs.dev/article/a6371e93 · 美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型：https://www.bestblogs.dev/article/ad5a0b93 · 专访美图 CEO 吴欣鸿：做 AI 产品，是一场难以提前策划的游戏：https://www.bestblogs.dev/article/8b6cc4f7 · 为什么我们构建了 ADK 2.0：https://www.bestblogs.dev/article/76d5c422 · RAG 的上下文工程：每个 RAG 答案背后的四种类型化输入：https://www.bestblogs.dev/article/33fa6204 · 高德 GrowLoop：构建感性对话的理性 Benchmark：https://www.bestblogs.dev/article/4bedb1a9 · 我们团队从 AWS 迁移到 PaaS 的经历：https://www.bestblogs.dev/article/49006840 · 人类-AI 交互设计的 39 条原则：https://www.bestblogs.dev/article/2cba6a6e · 如何把超级个体的产能，转化成组织能力？ | AI 跃迁者调研：https://www.bestblogs.dev/article/e3a487f9 · AI UITester：AI Native 的 UI 自动化测试新范式｜得物技术：https://www.bestblogs.dev/article/694f9d01 · 掌握智能体技术：AI 智能体强化学习：https://www.bestblogs.dev/article/99c932da · AI Agent 的 Skill 系统设计：https://www.bestblogs.dev/article/970fe1fe · Anthropic 重新部署 Claude Fable 5，配备增强型分类器及政府合作框架：https://www.bestblogs.dev/status/2072163884430229756 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
12分钟 · 7天前
74
0
EP104 · Sonnet 5 发布、谷歌媒体模型、智能体开发循环 · 07-01 早报
★ 精讲一 | Claude Sonnet 5 发布来自 Anthropic News Anthropic 官方发布 Claude Sonnet 5，定位为最具 agent 能力的 Sonnet：能规划、调用浏览器与终端工具并自主执行多步任务，整体性能接近 Opus 4.8 但价格更低，在推理、工具使用、编程上较 Sonnet 4.6 显著提升。8 月 31 日前享入门价每百万输入 token 2 美元、输出 10 美元，之后回到 3/15 美元。早期用户反馈它能端到端完成以往会中途停下的任务，适合关注 agent 实战与成本平衡的开发者细读。 ★ 精讲二 | 开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建来自 Google DeepMind News Google DeepMind 同日推出两款生成式媒体模型。Nano Banana 2 Lite 面向高吞吐场景，文生图延迟约 4 秒、每千张图 0.034 美元，并作为旧版 Nano Banana（gemini-2.5-flash-image）的推荐替代。Gemini Omni Flash 首次开放给开发者，支持文本、图像、视频混合输入的视频生成与会话式编辑，定价每秒视频输出 0.10 美元、与 Veo 3.1 Fast 持平，目前单次生成上限 10 秒。两者可串联使用并经 Interactions API 保留最多三次连续编辑的会话上下文，适合关注多媒体流水线与成本控制的产品与工程团队。 ★ 精讲三 | 吴恩达：AI 智能体软件开发的三大核心循环来自 Andrew Ng(@AndrewYNg) 吴恩达梳理了用 AI 智能体构建软件的框架，核心是三大循环：智能体自主编写并迭代代码的编程循环，人类以更高层决策引导智能体的开发者反馈循环，以及借用户测试与生产数据反哺产品愿景的外部反馈循环。他强调人类相对 AI 仍有显著的上下文优势，人机协同必不可少，编程智能体正推动工程师向产品管理角色拓展。适合想理清 agent 时代工程师定位的读者吸收。速览更多值得关注的内容 · AI+ Kuikly：7.5 小时落地三端「多模态聊天 App」实战 — 腾讯技术工程 · 谁在 ChatGPT 里买广告？｜对谈 Nexad COO Harry Zhou — 十字路口 Crossing · Claude Science：面向科学家的 AI 工作台 — Anthropic News · SkillOpt 将 AI 智能体技能转化为可训练资产 — Microsoft Research Blog · 给野马套上缰绳：Agent Harness 工程实践 ——从范式理论到钉钉 AI 招聘的真实落地 — 阿里云开发者 · LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆 — 美团 · 技术团队 · 生成式 AI 机器人：何处上岗，如何站岗 — 哈佛商业评论补充阅读今天额外值得一读的几条 · 万字长文推演 Claude 的代码统治力从何而来 — 腾讯云开发者 · Claude Sonnet 5 发布：迄今最具智能体能力的 Sonnet 模型 — Claude(@claudeai) · Claude Sonnet 5 的新功能 — Simon Willison's Weblog · 核心转储流行病学：修复一个存在 18 年的 Bug — OpenAI News · 从编码智能体驱动智能体质量飞轮 — Google Developers Blog 相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-07-01 · Claude Sonnet 5 发布：https://www.bestblogs.dev/article/eff5a221 · 开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建：https://www.bestblogs.dev/article/e2086adb · 吴恩达：AI 智能体软件开发的三大核心循环：https://www.bestblogs.dev/status/2071988145667928442 · AI+ Kuikly：7.5 小时落地三端「多模态聊天 App」实战：https://www.bestblogs.dev/article/4d1c9b0d · 谁在 ChatGPT 里买广告？｜对谈 Nexad COO Harry Zhou：https://www.bestblogs.dev/article/9c7cf0aa · Claude Science：面向科学家的 AI 工作台：https://www.bestblogs.dev/article/146437f9 · SkillOpt 将 AI 智能体技能转化为可训练资产：https://www.bestblogs.dev/article/0dd53848 · 给野马套上缰绳：Agent Harness 工程实践 ——从范式理论到钉钉 AI 招聘的真实落地：https://www.bestblogs.dev/article/d7fc3488 · LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆：https://www.bestblogs.dev/article/dbae37bb · 生成式 AI 机器人：何处上岗，如何站岗：https://www.bestblogs.dev/article/1bf869eb · 万字长文推演 Claude 的代码统治力从何而来：https://www.bestblogs.dev/article/dad55992 · Claude Sonnet 5 发布：迄今最具智能体能力的 Sonnet 模型：https://www.bestblogs.dev/status/2072017450611142835 · Claude Sonnet 5 的新功能：https://www.bestblogs.dev/article/a0f19ea0 · 核心转储流行病学：修复一个存在 18 年的 Bug：https://www.bestblogs.dev/article/c0a3590f · 从编码智能体驱动智能体质量飞轮：https://www.bestblogs.dev/article/10fc7b2b 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
13分钟 · 8天前
59
0
EP103 · Spotify 智能体基建、Block 组织转型、Spring AI 生态 · 06-30 早报
★ 精讲一 | Spotify 如何让智能体在 2000 万行代码库中运行：Claude Code、Honk 与工程验证体系 [视频] 来自 Claude Spotify 架构师 Niklas Gustavsson 回顾他们如何在超过 2000 万行的后端 monorepo 里跑 Claude Code 智能体。关键不在模型本身，而在配套工程基建：内部平台 Honk 在 Kubernetes 里运行 Claude agent SDK，把 CI、构建、测试自动化、组件归属和自动合并接进智能体的验证回路。他的提醒很务实：标准化的代码库和可靠的验证体系先帮到了人，现在同样帮智能体。适合想知道智能体落地到底依赖什么基建的工程负责人。 ★ 精讲二 | 构建自主工程组织：Block 如何让 3500 名工程师走向智能体协作 [视频] 来自 AI Engineer Block 工程负责人 Angie Jones 复盘 3500 人工程组织走向智能体协作的全过程。她最尖锐的判断是把采用和影响分开：约九成工程师在用 Goose 和 Claude Code，token 在烧，但功能并没有更快交付。她给出成熟度六阶段模型、AI champions 项目和写进 AGENTS.md 的仓库约定等抓手，三个月内 AI 生成代码占比提升 69%。结尾反问自动化成功后裁员的代价，没有给出确定答案。 ★ 精讲三 | 2026 年 Spring AI 生态全景：从 LLM 基础到智能体架构 [视频] 来自 Spring I/O Spring I/O 2026 这场分享梳理 Spring AI 从简单 LLM 调用走向生产级智能体生态的脉络。核心观点是有用的系统需要围绕模型搭一层 harness，处理状态、领域知识、结构化输出、安全和可观测。从 advisor 拦截模式、RAG 检索、guardrails 校验，到工具调用与 MCP 标准化集成，再到按需加载工具和子智能体的上下文优化，路线图指向 Spring AI 2.0 与 MCP GA。适合 Java 和 Spring 工程师理解智能体架构落点。速览更多值得关注的内容 · Token 不经济 — 腾讯研究院 · 让 KV Cache「按头分家」：小红书 RedKnot 如何重做长文本推理新引擎 — 小红书技术 REDtech · Deep Agents 中动态子智能体的引入 — LangChain Blog · 如何构建一个能自主运行 LLM 实验的 AI 智能体：autoresearch 实践指南 — freeCodeCamp · World Model-世界模型也有 Scaling Law 吗？ [播客] — 屠龙之术 · Claude Tag：AI 交互范式的第三次重新设计？深度分析 Karpathy 与业界的争议 — 宝玉(@dotey) · 3Blue1Brown 创始人：成为二手思考者的高昂代价 [播客] — 跨国串门儿计划补充阅读今天额外值得一读的几条 · 提示词工程悄然出错——提示词回归正是原因所在 — Towards Data Science · AI 智能体如何管理记忆并避免遗忘 — ByteByteGo Newsletter · 把前沿模型效果带到端侧：从大模型原型到小模型生产 [视频] — AI Engineer · 收购仅一年即「决裂」！创始人贾扬清出走英伟达：黄仁勋不满运营效果，20 亿美金的 AI Infra 突围为何折戟？ — AI 前线 · 架构模式：从云原生迈向本地优先——Adam Wiggins 的见解 — InfoQ · 第一批一人公司，现在怎么样了？ — 量子位相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-30 · Spotify 如何让智能体在 2000 万行代码库中运行：Claude Code、Honk 与工程验证体系 [视频]：https://www.bestblogs.dev/video/d60d34a · 构建自主工程组织：Block 如何让 3500 名工程师走向智能体协作 [视频]：https://www.bestblogs.dev/video/ff1b45c · 2026 年 Spring AI 生态全景：从 LLM 基础到智能体架构 [视频]：https://www.bestblogs.dev/video/ebd37c5 · Token 不经济：https://www.bestblogs.dev/article/8f66e3cc · 让 KV Cache「按头分家」：小红书 RedKnot 如何重做长文本推理新引擎：https://www.bestblogs.dev/article/98f49843 · Deep Agents 中动态子智能体的引入：https://www.bestblogs.dev/article/e4f0bf64 · 如何构建一个能自主运行 LLM 实验的 AI 智能体：autoresearch 实践指南：https://www.bestblogs.dev/article/6699656b · World Model-世界模型也有 Scaling Law 吗？ [播客]：https://www.bestblogs.dev/podcast/e2f49bb · Claude Tag：AI 交互范式的第三次重新设计？深度分析 Karpathy 与业界的争议：https://www.bestblogs.dev/status/2071356525570924563 · 3Blue1Brown 创始人：成为二手思考者的高昂代价 [播客]：https://www.bestblogs.dev/podcast/1490738 · 提示词工程悄然出错——提示词回归正是原因所在：https://www.bestblogs.dev/article/d9c8301c · AI 智能体如何管理记忆并避免遗忘：https://www.bestblogs.dev/article/5baef18b · 把前沿模型效果带到端侧：从大模型原型到小模型生产 [视频]：https://www.bestblogs.dev/video/9b072c1 · 收购仅一年即「决裂」！创始人贾扬清出走英伟达：黄仁勋不满运营效果，20 亿美金的 AI Infra 突围为何折戟？：https://www.bestblogs.dev/article/04c92022 · 架构模式：从云原生迈向本地优先——Adam Wiggins 的见解：https://www.bestblogs.dev/article/f85512aa · 第一批一人公司，现在怎么样了？：https://www.bestblogs.dev/article/1a555685 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
13分钟 · 9天前
64
0
EP102 · 代码品味、机器人流量、陪伴机器人 · 06-29 早报
★ 精讲一 | OpenAI Codex 负责人谈产品工作的新版图：从实现成本到品味、策展与智能体工作流 [视频] 来自 Lenny's Podcast OpenAI Codex 桌面端负责人 Andrew Ambrosino 在 Lenny's Podcast 聊了个实在判断：写代码的实现成本趋近于零后，产品工作的瓶颈不再是构建，而是品味与策展，真正昂贵的不再是实现而是判断力。他接着讲角色边界如何融合、长周期路线图为何会变成虚假精确、以及把半年到一年目标刻意留得模糊的野心式分阶段打法。对正在想产品经理和工程师边界的人，是值得对照的一手视角。 ★ 精讲二 | #603.Cloudflare CEO：当机器人流量超过人类，互联网的商业模式将彻底崩塌 [播客] 来自跨国串门儿计划 Cloudflare 联合创始人兼 CEO Matthew Prince 给出硬数据：2026 年上半年平台机器人流量首次超过人类，五年后可能是人类的一千倍。他的推论是，互联网过去 28 年靠广告的模式撑不住，因为「机器人不会去点广告」，总得有人买单。他还谈到裁掉超过 20% 的团队、管理幅度从 6 比 1 变 12 比 1，以及用 Agent 审查每次代码发布。对关心 AI 时代基础设施和组织变化的人，信息密度很高。 ★ 精讲三 | 我遇到了第一个真正想买的陪伴机器人！｜对话世博：越伴动力创始人【公路播客】 [播客] 来自十字路口 Crossing 越伴动力创始人世博被称作「少年版稚晖君」，大一开始手搓过 30 多款机器人。这次他做的陪伴机器人「小伴」不讲人话，而是用像「外星语」的声音表达情绪，还会撒娇、委屈、拒绝你。他给出三条判断：陪伴不是讨好、生命力不是可爱、少就是多。技术上端侧快脑 1.7B 加慢脑 7B，把延迟压到 0.4 秒以内，全身九成以上是柔软材质。对关注具身智能和情感机器人的人，是很具体的产品取舍记录。速览更多值得关注的内容 · 最新！万字综述 Prompt 到 Loop 进化 — Datawhale · DeepSeek 发布 DSpark 推测解码框架，DeepSeek-V4 单用户生成速度较 MTP-1 提升 60–85% — MarkTechPost · 我们构建了一个路由层来削减 AI 成本，结果搞砸了产品 — Towards Data Science · LLM 有欲望吗？— LessWrong — LessWrong · Grok 4.5 在 SpaceX 与特斯拉开启私测：性能逼近 Opus — Elon Musk(@elonmusk) · Seedance 之后，视频 Agent 何去何从？｜对话 OiiOii 闹闹，拆解视频模型的秘密：数据、生态与感性的结构化 [播客] — 卫诗婕｜漫谈 Light the Star · 2000 人尝试黑掉我的 AI 助手之后发生了什么 — Fernando Irarrázaval — Hacker News 补充阅读今天额外值得一读的几条 · 就从来没人质疑过 OPD 的 reward 设计吗？我们发现了 log 本身就是问题，也许就不该用！ — 青稞 AI · 尾延迟控制：可靠智能体工作流的反直觉工程 — Towards Data Science · 4300 万论文、30 亿三元组，科研 Agent 实现多视角创新评估 — PaperWeekly · 对话它石智航丁文超：拒绝做机器人的「简单题」｜甲子光年 — 甲子光年 · 1 人公司，扛 5 个人的活，还要管 50 个 Agents ？| S10E18 [播客] — What's Next｜科技早知道 · 别急着上 Multi-Agent，先看看哪些坑是真的坑 — 非凡产研相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-29 · OpenAI Codex 负责人谈产品工作的新版图：从实现成本到品味、策展与智能体工作流 [视频]：https://www.bestblogs.dev/video/6daf60e · #603.Cloudflare CEO：当机器人流量超过人类，互联网的商业模式将彻底崩塌 [播客]：https://www.bestblogs.dev/podcast/352bbef · 我遇到了第一个真正想买的陪伴机器人！｜对话世博：越伴动力创始人【公路播客】 [播客]：https://www.bestblogs.dev/podcast/b29f231 · 最新！万字综述 Prompt 到 Loop 进化：https://www.bestblogs.dev/article/a41eb439 · DeepSeek 发布 DSpark 推测解码框架，DeepSeek-V4 单用户生成速度较 MTP-1 提升 60–85%：https://www.bestblogs.dev/article/04ce0133 · 我们构建了一个路由层来削减 AI 成本，结果搞砸了产品：https://www.bestblogs.dev/article/a676552d · LLM 有欲望吗？— LessWrong：https://www.bestblogs.dev/article/6c941c48 · Grok 4.5 在 SpaceX 与特斯拉开启私测：性能逼近 Opus：https://www.bestblogs.dev/status/2071184354756477041 · Seedance 之后，视频 Agent 何去何从？｜对话 OiiOii 闹闹，拆解视频模型的秘密：数据、生态与感性的结构化 [播客]：https://www.bestblogs.dev/podcast/edf5027 · 2000 人尝试黑掉我的 AI 助手之后发生了什么 — Fernando Irarrázaval：https://www.bestblogs.dev/article/4a6061ae · 就从来没人质疑过 OPD 的 reward 设计吗？我们发现了 log 本身就是问题，也许就不该用！：https://www.bestblogs.dev/article/3baad5ef · 尾延迟控制：可靠智能体工作流的反直觉工程：https://www.bestblogs.dev/article/d2ee9503 · 4300 万论文、30 亿三元组，科研 Agent 实现多视角创新评估：https://www.bestblogs.dev/article/14e0d122 · 对话它石智航丁文超：拒绝做机器人的「简单题」｜甲子光年：https://www.bestblogs.dev/article/3c15eb85 · 1 人公司，扛 5 个人的活，还要管 50 个 Agents ？| S10E18 [播客]：https://www.bestblogs.dev/podcast/feef1dd · 别急着上 Multi-Agent，先看看哪些坑是真的坑：https://www.bestblogs.dev/article/9ffd8577 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
14分钟 · 10天前
69
0
EP101 · GPT-5.6、魏小康谈招聘、AI 压垮中层 · 06-28 早报
★ 精讲一 | 刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了来自爱范儿 OpenAI 正式发布 GPT-5.6 系列：旗舰 Sol、均衡款 Terra、低成本 Luna。Sol 在 Terminal-Bench 2.1、GeneBench、ExploitBench 上刷新成绩，但 OpenAI 刻意强调它尚未跨越关键安全阈值，并按模型档位配置了强度递增的分级安全栈。比性能更值得注意的是发布机制本身：美国政府要求发布前展示能力，首批仅约 20 家获批合作伙伴可访问，个人用户暂时无法申请——前沿模型的发布节奏正被纳入国家安全框架。 ★ 精讲二 | 唯一深度参与过字节、美团组织建设的人｜对谈 AI 创业者魏小康 [播客] 来自 42 章经魏小康先后在字节（2017-2020）和美团担任招聘负责人，是少见的深度参与两家顶级公司组织建设的样本。他把组织建设拆成两件事：怎么让人运转（选用育励汰、文化薪酬职级），以及怎么让人和业务一起运转（目标拆解、分工协作）。他的非共识判断很硬：创业公司 80% 到 90% 的时间都该花在招聘上，而招聘里最重要的不是面试、谈 offer 最重要的也不是钱。对正在搭团队的 AI 创业者，这是一份关于把劲用对地方的一手经验。 ★ 精讲三 | AI 普及正在压垮中层管理者来自 HBR.org 哈佛商业评论访谈了两家咨询公司的 18 位合伙人、经理与初级顾问，得出一个反直觉结论：AI 落地的成败不在技术，而在中层管理者。88% 的组织已在至少一个职能用上 AI，却只有约四分之一真正产出切实价值，差距根源是工作流重构而非模型先进度。中层经理被夹在高管的雄心与一线的现实之间——既要教团队用 AI、又要替 AI 产出的成果纠错、还要在缺乏指引下揣摩上级口中那份所谓 AI 增强备忘录到底指什么。速览更多值得关注的内容 · Claude Code 工程负责人 Fiona Fung：如何打造全世界最 AI Native 的工程团队? — 十字路口 Crossing · 使用本地编码智能体 — Ahead of AI · 金融科技工程手册 — Hacker News · 别再写单一语气指令了，把它们分层 —— Isadora Martin-Dye，Isadora & Co [视频] — AI Engineer · Loop 不是 Agent 架构，Harness 才是 — 浮之静 · 上线 14 个月，Notion 关掉了自己的 AI 邮件产品 — Founder Park · 我把自己的 IP 配图技能开源了顺手做了 31 个现成角色 — 小互 AI 补充阅读今天额外值得一读的几条 · 「尴尬」的智能眼镜，终于不用说「明年是元年了」 — 腾讯科技 · 对话蔡崇信：人们都坐在户外喝咖啡，享受生活，这就是 AI 的未来 — 砺石商业评论 · 探访北京探月学校：AI 时代「超级高中生」、大学外的第三种可能与中国创新教育 — 硅谷 101 · Mark Pincus 在 YC 访谈中 30 年产品哲学与创始人 playbook — Y Combinator(@ycombinator) · 英伟达、比亚迪、宇树集体押注！具身智能风口来了，普通人怎么分钱？|无限进化 58 [播客] — 第一财经 · 美国大模型走向封闭，以安全之名 — 腾讯科技相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-28 · 刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了：https://www.bestblogs.dev/article/9a7132f3 · 唯一深度参与过字节、美团组织建设的人｜对谈 AI 创业者魏小康 [播客]：https://www.bestblogs.dev/podcast/4c4475e · AI 普及正在压垮中层管理者：https://www.bestblogs.dev/article/e44268ef · Claude Code 工程负责人 Fiona Fung：如何打造全世界最 AI Native 的工程团队?：https://www.bestblogs.dev/article/e67ff5dc · 使用本地编码智能体：https://www.bestblogs.dev/article/6458a9db · 金融科技工程手册：https://www.bestblogs.dev/article/9b7ac3e7 · 别再写单一语气指令了，把它们分层 —— Isadora Martin-Dye，Isadora & Co [视频]：https://www.bestblogs.dev/video/f381041 · Loop 不是 Agent 架构，Harness 才是：https://www.bestblogs.dev/article/731e27c5 · 上线 14 个月，Notion 关掉了自己的 AI 邮件产品：https://www.bestblogs.dev/article/669cd820 · 我把自己的 IP 配图技能开源了顺手做了 31 个现成角色：https://www.bestblogs.dev/article/cb2309c5 · 「尴尬」的智能眼镜，终于不用说「明年是元年了」：https://www.bestblogs.dev/article/7df2922b · 对话蔡崇信：人们都坐在户外喝咖啡，享受生活，这就是 AI 的未来：https://www.bestblogs.dev/article/d4e1d8d5 · 探访北京探月学校：AI 时代「超级高中生」、大学外的第三种可能与中国创新教育：https://www.bestblogs.dev/article/644e5ae0 · Mark Pincus 在 YC 访谈中 30 年产品哲学与创始人 playbook：https://www.bestblogs.dev/status/2070176055000977676 · 英伟达、比亚迪、宇树集体押注！具身智能风口来了，普通人怎么分钱？|无限进化 58 [播客]：https://www.bestblogs.dev/podcast/30fc45d · 美国大模型走向封闭，以安全之名：https://www.bestblogs.dev/article/1a1a946a 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
13分钟 · 11天前
77
0
EP100 · GPT-5.6 Sol、Agent 提示词缓存、AI 推理盈利账 · 06-27 早报
★ 精讲一 | GPT-5.6 Sol 前瞻：下一代模型预览来自 OpenAI News OpenAI 启动 GPT-5.6 系列有限预览：旗舰 Sol、均衡款 Terra（性能比肩 GPT-5.5 但便宜一半）、低成本 Luna。新增 max 深度推理档与调用子智能体的 ultra 模式，Sol 在 Terminal-Bench 2.1 上以 88.8% 刷新编码 SOTA。这次首发只面向少数可信伙伴，并配合美国政府网络安全审查分阶段放开——能力跃升与安全门槛同步收紧，才是本次发布最值得关注的信号。 ★ 精讲二 | Deep Agents 的提示词缓存来自 LangChain Blog LangChain 拆解了把生产级 Agent 成本压下来的关键杠杆——提示词缓存。难点在于各家策略割裂：Anthropic、Gemini 支持显式断点，OpenAI 走最长前缀自动缓存，Gemini 仅有隐式缓存。其 Deep Agents 框架做了 provider 无关封装，在真实 Agent 轨迹上把 token 成本砍掉 49%-80%（claude-haiku -77%、gpt-5.4-mini -80%）。会话越长收益越大，长程任务最受益。 ★ 精讲三 | AI 推理显然是盈利的来自 Sean Goedecke 不少人认为 AI 推理服务本身在亏钱、只能靠投资人输血续命，Sean Goedecke 算了一笔账反驳：4 张 A100 跑 70B 模型约 2M token/小时，电费加散热每百万 token 仅约 13 美分，摊上 GPU 折旧综合成本约 1 美元；而 GPT-5.4-mini 卖 4.5 美元，70%-80% 毛利完全成立。DeepSeek-V4-Pro 市场价约 87 美分已贴近成本佐证。真正亏的不是推理，而是 AI 实验室拿推理利润补贴训练军备竞赛。速览更多值得关注的内容 · 翁荔最新万字长文：大模型 Scaling Laws，要谨慎理解 — AINLP · 新一代学习 AI，苹果端侧模型配方，GLM-5.2 攻克开放性问题 — The Batch | DeepLearning.AI · 科技爱好者周刊（第 401 期）：如何赚到 10 亿美元 — 阮一峰的网络日志 · 腾讯混元 AI Infra 如何优化 Hy3 Preview：一次大模型推理性能提升的技术拆解 — 腾讯技术工程 · OpenSandbox 再进化：Credential Vault 让真实密钥不再进入沙箱 — 阿里技术 · 火山引擎 AI 搜索千万级 Agent 架构演进与实践：从 ReAct 三节点到 Unified Policy — 字节跳动技术团队 · Zynga 创始人 Mark Pincus：消费者产品「现在没法投」，恰恰是你该入场的理由 [视频] — Y Combinator 补充阅读今天额外值得一读的几条 · 饮水机闲聊第 11 期：RAG 评估中的过拟合 — Towards Data Science · QoderWork Skills 开发实践：从传统数科到 AI 数科的转型探索-我的 Skills 进阶之旅 — 大淘宝技术 · 具身数据采集产业链调查：被机器人采集的人｜甲子光年 — 甲子光年 · 未来五年，比技术更值钱的是这些基础能力 — 哈佛商业评论 · 教你的 AI 如何做决策 — HBR.org · 英特尔，10000 亿市值还有多远？ — 腾讯科技相关链接 · 本期早报在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-27 · GPT-5.6 Sol 前瞻：下一代模型预览：https://www.bestblogs.dev/article/97e62d58 · Deep Agents 的提示词缓存：https://www.bestblogs.dev/article/91444258 · AI 推理显然是盈利的：https://www.bestblogs.dev/article/262173e6 · 翁荔最新万字长文：大模型 Scaling Laws，要谨慎理解：https://www.bestblogs.dev/article/f547eb02 · 新一代学习 AI，苹果端侧模型配方，GLM-5.2 攻克开放性问题：https://www.bestblogs.dev/article/6a65696f · 科技爱好者周刊（第 401 期）：如何赚到 10 亿美元：https://www.bestblogs.dev/article/a93f6c93 · 腾讯混元 AI Infra 如何优化 Hy3 Preview：一次大模型推理性能提升的技术拆解：https://www.bestblogs.dev/article/a0f9d2c7 · OpenSandbox 再进化：Credential Vault 让真实密钥不再进入沙箱：https://www.bestblogs.dev/article/eb89e83b · 火山引擎 AI 搜索千万级 Agent 架构演进与实践：从 ReAct 三节点到 Unified Policy：https://www.bestblogs.dev/article/b02cc219 · Zynga 创始人 Mark Pincus：消费者产品「现在没法投」，恰恰是你该入场的理由 [视频]：https://www.bestblogs.dev/video/39f15d3 · 饮水机闲聊第 11 期：RAG 评估中的过拟合：https://www.bestblogs.dev/article/2d145514 · QoderWork Skills 开发实践：从传统数科到 AI 数科的转型探索-我的 Skills 进阶之旅：https://www.bestblogs.dev/article/35406486 · 具身数据采集产业链调查：被机器人采集的人｜甲子光年：https://www.bestblogs.dev/article/2448b5e5 · 未来五年，比技术更值钱的是这些基础能力：https://www.bestblogs.dev/article/e564c82d · 教你的 AI 如何做决策：https://www.bestblogs.dev/article/da7a5b3c · 英特尔，10000 亿市值还有多远？：https://www.bestblogs.dev/article/0721d213 关于 BestBlogs BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容。关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。
12分钟 · 12天前
78
0
BestBlogs 周刊第 101 期 · 慢下来才能更快
本周亮点如果说前几周的关键词是模型一个接一个变强，那么这一周，行业像是集体慢了半拍，开始认真盘点一个问题：当 AI 把写代码、出方案、做内容都变得飞快，真正的瓶颈到底卡在哪里。本周内容给出的答案出奇一致——是验证、是审查、是判断。这一期的主题，就借 Gergely Orosz 的那句话，叫「慢下来才能更快」。时间线 00:00 开场 · 本周主线「慢下来才能更快」+ BestBlogs 按下暂停键 01:32 主题一 · 慢下来才能更快：被重新定义的瓶颈（Gergely Orosz + Fiona Fung） 04:30 主题二 · Agent 走进团队：身份与协作成了新课题 05:57 主题三 · 审查与安全，正在被认真地工程化 07:45 主题四 · 评估、知识底座与底层地基 09:44 主题五 · 比 AI 能力更稀缺的：判断、品味与主动性 11:20 主题六 · 创业的慢功夫 12:52 收尾 · 本周关键词 + 下周预告精讲条目主题一 · 慢下来才能更快 * 慢下来才能更快：AI 如何重塑软件工程 · The Pragmatic Engineer · https://www.bestblogs.dev/video/550c5a2 * 打造全球最 All-in AI 工程团队：Anthropic Claude Code 负责人 Fiona Fung 一线实践 · Lenny's Podcast · https://www.bestblogs.dev/video/2f4fa0a 主题二 · Agent 走进团队 * 智能体身份：适用于自主、团队级 AI 的新型访问模型 · Claude Blog · https://www.bestblogs.dev/article/b6b6137f * Anthropic 关于构建高效人机协作团队的经验 · Claude Blog · https://www.bestblogs.dev/article/4929a2db 主题三 · 审查与安全的工程化 * 阿里开源 Open Code Review：一周揽下 5k star · 阿里技术 · https://www.bestblogs.dev/article/3732f5a7 * 从 Harness 架构到 Token 经济学的探索 · 腾讯云开发者 · https://www.bestblogs.dev/article/70410bef * 攻破 LLM 驱动的应用：从上下文投毒、工具越权到纵深防御 · Spring I/O · https://www.bestblogs.dev/video/c86cc44 主题四 · 评估、知识底座与地基 * 我们如何利用 DSPy 将 AI 评估转化为更优回复 · Dropbox Tech Blog · https://www.bestblogs.dev/article/c2a3404e * 构建 AI 时代的知识底座：直播数据 LLM Wiki 实践 · 阿里云开发者 · https://www.bestblogs.dev/article/7c595530 * Qwen-AgentWorld 开源：面向通用智能体的语言世界模型 · 魔搭 ModelScope 社区 · https://www.bestblogs.dev/article/f01c6497 * OpenAI 与 Broadcom 发布针对 LLM 优化的推理芯片 Jalapeño · OpenAI News · https://www.bestblogs.dev/article/41ff73d7 * 美团海报生成 AIGC 技术创新与实践 · 美团技术团队 · https://www.bestblogs.dev/article/e06839f2 主题五 · 判断、品味与国民应用 * 第二属性大于 AI 能力，像编剧一样做产品｜对话美图小白 · 爱范儿 · https://www.bestblogs.dev/article/9977c974 * AI 教母预言：10 年后只剩两种工作者（李飞飞） · Silicon Valley Girl · https://www.bestblogs.dev/video/b7e175c * AI 时代，内容工业的三次死亡与创作者的重生 · 屠龙之术 · https://www.bestblogs.dev/podcast/e1238ff * 微信 AI 全网最细体验，我又爱上了刷朋友圈 · 爱范儿 · https://www.bestblogs.dev/article/48b2c6fa * 2026 端侧 AI 战事升级，苹果谷歌们在拼什么 · 腾讯科技 · https://www.bestblogs.dev/article/4981e30f 主题六 · 创业的慢功夫 * Zynga 创始人 Mark Pincus：消费产品现在没法投，恰恰是入场理由 · Y Combinator · https://www.bestblogs.dev/video/39f15d3 * AI 创业者想出海拿美元，搭好可融资的企业架构才是第一步 · Founder Park · https://www.bestblogs.dev/article/c28a321b * 三个月，一场必然失败的 Tokenmaxxing · 腾讯科技 · https://www.bestblogs.dev/article/8a08f9d4 关于 BestBlogs BestBlogs.dev 是 AI 驱动的私人阅读助手。它会从 RSS、Newsletter、Twitter、YouTube、Podcast 等来源中筛选高质量内容，结合你关注的源、兴趣标签和阅读行为，把「我的早报」整理成每天真正适合你的阅读流——不论你关注的是技术、AI、产品、商业、研究、设计、投资、文化还是个人成长。完成新用户三步引导送 7 天 Pro 试用；现有 Pro 用户邀请朋友双方各得 7 天 Pro。相关链接 * 本期周刊 · https://www.bestblogs.dev/newsletter/issue101 * BestBlogs · https://bestblogs.dev
14分钟 · 13天前
48
0

BestBlogs 早报音频版，精选 AI、技术、产品、设计与商业科技领域值得关注的高质量内容，陪你每天从真正重要的信息开始。