

神经网络语言模型:缩放定律当我们在谈论大模型的“智能涌现”时,背后是否隐藏着一条像物理定律一样精确的数学法则?答案是肯定的——缩放定律(Scaling Laws)。 本期内容将带你深入一份关于神经网络语言模型规模定律的研究。你会发现,模型的性能(交叉熵损失)与参数量、数据集大小和计算资源之间,存在着跨越多个数量级的幂律关系,且几乎不受架构细节(深度、宽度)的影响。更关键的是,研究揭示了计算预算的最佳分配策略:优先扩大模型规模,而非无限增加数据或训练步数;大模型比小模型更具样本效率,且不应训练到收敛。这些规律为预测下一代模型性能提供了类似“理想气体定律”的理论框架,也解释了为何“大力出奇迹”在目前阶段依然有效。 缩放定律证明了语言模型的性能高度依赖于规模,且遵循精确的幂律。它告诉我们:扩大模型规模比增加数据更划算,训练大模型并提前停止是最优策略。这对于指导未来大模型的研发投入具有重要的定量意义。 参考:Scaling Laws for Neural Language Models 以下为主要内容的图文介绍:
姚顺宇:AI Scaling Law(规模定律)的持续有效性当外界纷纷讨论“规模定律撞墙”、大厂创新乏力时,Google DeepMind 研究员姚顺宇却给出了截然相反的判断:预训练的 Scaling Law 远未见顶,所谓“撞墙”大多是工程 Bug 或科学假设错误。他曾供职于 Anthropic,如今在谷歌,亲历三大 AI 巨头的内部打法。 本期内容源自《张小珺播客》对姚顺宇的深度访谈。你将了解到,为何他认为 AI 研发已从“个人英雄主义”进入“集体系统化”时代;代码生成为何能率先爆发(反馈清晰 + GitHub 数据);以及 Anthropic、Google、OpenAI 在决策机制和文化上的本质差异。他也直率地评价了中美 AI 竞争:中国公司在 C 端产品和“蒸馏”技巧上是先行者,而美国公司更专注于提升智能上限。最后,他预测未来 6-12 个月内,AI 将实现“自我研究”的闭环。这是一份来自一线实战派的技术洞察。 姚顺宇认为,AI 已进入拼执行、拼数据工程、拼系统化建设的平稳增长期。真正的突破可能来自对下一代交互形态的探索,以及 AI 对科研过程本身的全面自动化。 参考: * Scaling laws for neural language models * Yao Shunyu: Let Me Go a Little Crazy! Training Models at Anthropic & Gemini, Heroism Is Over 🧠 AI 研发范式转移——从“个人英雄”到“系统化工程” * 个人英雄主义时代已过:现在的成功更多依赖集体的执行力和系统的严谨性。 * 研发像18世纪的热力学:理论与实验紧密结合,通过大规模数值实验验证想法。 * “涌现”的真相:所谓智能涌现,其实是发现了如何通过大规模训练同步提升所有能力的方法。 * Scaling Law未见顶:很多“撞墙”言论,实际上是工程上的bug或科学假设错误,而非规模本身的天花板。 🏢 三大模型公司内部对比——Anthropic、Google、OpenAI * Anthropic:执行力极强,决策层本身就是核心技术负责人,能实现高效的自上而下决策。 * Google:技术储备深厚(TPU、人才),擅长将确定的技术路径转化为严谨的工程项目,文化偏向自下而上,研究自由度大。 * OpenAI:曾引领范式,但组织上面临决策机制的挑战;其后训练团队与产品结合非常紧密。 💻 核心技术洞察——代码、强化学习与长文本 * 代码为何率先爆发:反馈信号极度清晰(测试通过/失败),且拥有GitHub这一高质量天然数据集。 * 强化学习的作用:后训练的核心,通过在清晰反馈环境中大规模练习,显著提升模型能力(如Claude 3.7)。 * 长文本哲学:用有限的训练长度实现无限的使用长度,通过选择性遗忘和检索机制让模型具备更长的工作跨度。 🌍 行业现状与中美竞争 * 模型同质化:三大公司纸面跑分接近饱和,未来差异在用户体验和特定场景(Agent、Coding)优化。 * AI自我演进:预计6-12个月内,AI将能完整实现“提出假设→写代码跑实验→分析结果”的自我研究闭环。 * 对话式交互“愚蠢”:目前的Chatbot形态非常原始,未来需要全新产品形态。 * 中美对比: * 中国:人才储备出色,C端产品商业模式和生态构建极强(抖音、豆包),在“蒸馏”技巧上是先行者。 * 美国:更专注于提升智能上限和效率工具,C端产品力相对较弱。 🎓 个人成长与职业态度 * 物理学背景的价值:培养了系统性思考和追根究底的性格,追求“可客观评价的标准”。 * 推崇“靠谱”:做事并负责、清晰定义问题,对含糊其辞的观点持批判态度。
Claude Code 创作者 Boris Cherny:编程问题已经基本解决当一位顶尖 AI 公司的工程师说“编程问题已经基本解决”,而且他本人100%的代码都由 AI 编写、创下过一天提交150个拉取请求的纪录时,你不得不重新思考:软件开发还剩下什么? 本期内容源自 Anthropic 的 Claude Code 创作者 Boris Cherny 的深度访谈。你将听到他为何断言“编程已不再是瓶颈”;如何通过循环任务(Loops) 和数百个并行智能体,在手机上指挥深度工作;为何未来的“全民编程”意味着财务、行政都能写代码,而模型之间甚至会用 Slack 互相沟通。他还预测,AI 将大幅降低软件的切换成本,让小型初创公司有机会挑战甚至取代巨头。当然,他也强调:产品细节和交互设计依然占据50%的重要性。这是从“辅助编程”到 “AI驱动的全自动软件工程” 的一次思想飞跃。 Boris Cherny 认为,我们正处于软件开发的 “印刷机时刻” 。AI 不仅让代码编写变得极其廉价,更在从根本上改变人类创造软件的方式和组织形态。当编程不再是壁垒,真正的竞争将转向领域知识、产品品味和调用智能体的能力。 参考:Anthropic's Boris Cherny: Why Coding Is Solved, and What Comes Next 🤖 编程已“解决”——从代码补全到全自动 * 核心观点:编程问题已经基本解决。Boris表示,他目前100%的代码都由AI编写,曾创下一天完成150个PR的纪录。 * 模型进化:Claude Code的爆发始于Opus 4,并随着4.5、4.6到4.7持续增强。即使遇到旧代码库或冷门语言的挑战,通常也只需“等待下一个模型”即可解决。 ⚙️ 智能体工作流——循环任务与大规模并行 * 移动端指挥:Boris如今大部分工作通过手机上的Claude App完成,同时运行着数百甚至数千个智能体处理深度任务。 * 循环(Loops/Sloop):通过Cron调度Claude自动执行重复任务,如自动修复CI错误、重构代码、从社交媒体收集并分类用户反馈。 * 常规化(Routines):Anthropic推出的服务器端功能,确保即使电脑关闭,这些自动化任务也能持续运行。 🧑💻 团队重塑——从“程序员”到“跨学科通才” * 跨学科通用人才:未来将涌现更多既懂工程、又精通设计、产品或数据科学的全能型开发者。 * 全民编程:在Anthropic内部,所有岗位(财务、行政、研究员)都会写代码。公司内部不再有人手动编写SQL,模型之间甚至会用Slack互相沟通以解决未知问题。 🏢 行业未来——软件民主化与初创公司机遇 * 编程成为基础技能:编程将像“发短信”或“读写”一样普及。领域专家(如会计师)将成为编写该领域软件的最佳人选,因为难点在于领域知识,而非编码。 * 行业格局重构:AI降低了软件的切换成本和流程壁垒。小型初创公司没有历史包袱,能原生利用AI从头构建,从而有机会挑战甚至取代大型企业。 * 产品仍然重要:模型能力虽关键,但构建“人们喜爱的产品”(细节体验、交互设计)依然占有50%的重要性。 🔌 技术生态——MCP与计算机使用 * MCP(模型上下文协议):连接Claude与外部工具(Google Docs、Salesforce、代码库)的关键,提供编程访问权限。 * 计算机使用(Computer Use):作为“兜底”方案,允许模型像人一样操作屏幕上的任何软件。在4.7版本中已有显著提升,尽管目前速度仍偏慢。
Hermes Agent:自我进化的AI助手如果有一个 AI 助手,不仅能记住你的习惯,还能从每一次交互中自主“学习”新技能,并在你睡觉时定时完成任务——而且它不会每天崩溃。你会想试试吗? 本期内容将带你深入了解开源项目 Hermes Agent ——一款由 Nous Research 开发的、具备自我进化能力的长效 AI 智能体。我们会对比它和前代热门项目 OpenClaw 的核心差异:为何用户反馈 Hermes 更稳定、更智能?它如何通过“学习闭环”自主创建和优化技能?它的长效记忆如何从“记住事实”升级为“理解你的行为模式”?更重要的是,它提供了无缝的迁移工具,让你能从 OpenClaw 一键搬家。无论你是 AI 自动化爱好者,还是希望拥有一个真正“懂你”的数字管家,Hermes Agent 都值得你重新审视。 Hermes Agent 在保留 OpenClaw 核心理念(多平台、个人 AI 助手)的基础上,通过自主技能开发、深度用户建模和系统稳定性的全面增强,实现了从“工具”向“自主 AI 助手”的跨越。如果你需要一个能 24×7 运行、越用越聪明、且能无缝接管的数字伙伴,Hermes 是目前开源社区中最值得尝试的选择。 参考: * https://hermes-agent.nousresearch.com/ * https://github.com/nousresearch/hermes-agent * Has anyone here explored Hermes Agent by Nous Research? * The ONLY Hermes Agent Tutorial You Need 2026: How To Use Hermes AI Agent * Hermes Agent: 新手终极指南 以下为主要内容的图文介绍: 🧠 核心定位:不止是聊天机器人,更是“AI 操作员” * 自我进化:Hermes 拥有内置的学习闭环。它能根据执行任务的经验,自主创建新技能,并在后续使用中持续优化这些技能。例如,你让它“研究某个视频并总结”,它会将整个操作流程保存为可重复使用的永久技能。 * 长效持久记忆:它不仅能记住你告诉它的事实(如“我住在北京”),还能构建深度用户模型——你的工作方式、偏好、习惯。通过可选插件(如 Honcho),记忆可以从“存储信息”升级为“捕捉行为模式”。 * 24/7自动化:专为持续运行设计,可在VPS、GPU集群或无服务器架构上常驻。内置Cron调度器,可以定时执行每日简报、备份、市场监控等任务,无需人工干预。 🔌 多平台与模型灵活性 * 15+平台无缝集成:通过单一网关进程,Hermes 可在 Telegram、Discord、Slack、WhatsApp、Signal、命令行等平台运行,且所有平台共享同一套记忆和技能。 * 不绑定特定模型:支持通过 OpenRouter 连接200多种模型(Claude、GPT等),也支持本地模型或各种 API 提供商。模型切换后立即生效,无需重启。 🛡️ 安全与研究就绪 * 多层安全机制:容器隔离、危险命令审批、技能扫描。 * 研究工具:提供批量轨迹生成、强化学习(RL)环境等,方便研究人员探索智能体行为。
美股ETF投资决策指南:增长 vs. 现金流当你准备为退休做长期定投,摆在你面前的有两个选择:一个是追踪标普500指数的经典 ETF SPY,年化分红约1.3%;另一个是同为标普500家族、但年化分红高达12%的 SPYI。一个侧重“资产增值”,一个侧重“每月提现”——到底哪个更适合你的养老计划? 本期内容将带你彻底搞懂这四只热门 ETF(SPY、QQQ、SPYI、QQQI)的核心区别。你会看到,QQQ 在牛市中如何用18.5%的年化回报碾压 SPY;SPYI 和 QQQI 的高分红背后,为什么会在牛市中“涨不动”;以及最关键的问题:如果你还有10年以上才退休,为什么应该无脑选择 SPY?而临近退休时,为什么 SPYI 的税务高效分红会成为你的“退休工资”最优解? 无论你是年轻人定投,还是退休人士需要现金流,这份对比指南都能帮你避开“错配陷阱”。 没有绝对“更好”的 ETF,只有是否匹配你的人生阶段。年轻人选 QQQ/SPY,老年人选 SPYI/QQQI。关键在于:你是想要退休时有一大笔资产,还是现在就每月有钱花? TL;DR * 追求资产净值最大化,且年轻/风险承受力高:选择 QQQ(激进)或 SPY(稳健)。 * 追求每月高额现金流(退休人员、需要现金流的人):选择 SPYI(标普做底,收益更稳)或 QQQI(纳指做底,潜力更高)。 * 不想要本金下跌,只想要分红:这四只不适合你,应该看完全由债权组成的基金。 备兑看涨期权策略(Covered Call) 的核心是:持有现货资产 + 卖出该资产的看涨期权。 这个策略常被比喻为 “收租” ,因为它通过卖出期权获得权利金,为持仓带来持续现金流。 Covered Call 是一个以放弃部分上涨潜力为代价,来换取持续现金流和下行保护的策略。 它非常适合预期市场将维持震荡或温和上涨的投资者,但在单边大牛市中会显著跑输。 以下是对该策略的系统总结: 1. 核心运作机制 * 组合构建:投资者先持有基础资产(如股票或 ETF),然后针对这些持仓卖出相应的看涨期权。 * 收益来源:卖出期权后立即获得一笔权利金。这笔收入通常被转化为月度分红,类似于房产“租金”。 2. 策略主要目标 * 产生现金流:首要目标不是追求资产价格的大幅上涨,而是在震荡或温和上涨的市场中,创造高额、稳定的月度收入。 * 提供下行缓冲:在市场小幅下跌时,收到的权利金可以部分抵消资本损失,起到“安全垫”的作用。 3. 策略的代价与局限(必须了解的风险) * 牺牲上涨空间(收益封顶):这是最大的缺点。因为你已经将股价上涨至行权价以上的收益权利卖给了对方。一旦市场进入大牛市,该策略的涨幅会被锁定,表现出“涨不动”的特征。 * 牛市跑输大盘:在强劲的单边上涨行情中,备兑开仓策略的总回报必然低于直接持有基础资产(如直接持有 SPY或 QQQ)。 4. 常见的进阶应用与产品特征(如 NEOS 系列) * 刚性策略:部分 ETF(如 QQQI)会将几乎全部持仓都用于期权操作,以追求极高的分红率(例如约14%)。 * 税务优化:通过使用特定的期权合约(如1256合约),这类产品在税收处理上可能比同类竞品(如JEPQ)更具优势。 * 防御性购入:为了缓解“涨不动”的问题,有些基金会用一小部分资金买入价外看涨期权,试图在市场暴涨时捕捉一点额外收益。但这部分“保险费”在横盘市场中可能会略微拖累整体表现。 风险分析 1. SPY / QQQ (成长型风险) * 市场风险:遇到整体熊市(如2022年),净值会大幅下跌。 * QQQ 的集中度风险:前十大持股比重非常高,如果科技股板块调整,QQQ 跌幅显著大于 SPY。 2. SPYI / QQQI (收益型风险) * 上限受限风险 (Upside Cap):在牛市大涨行情下,Covered Call 策略会限制收益,长期回报可能输给单纯持有 SPY/QQQ 的投资者。 * “砍头”风险:如果标的资产下跌,期权带来的收益可能无法覆盖资产净值的跌幅。即你赚了高分红,但亏了本金。 * 税收风险:高额分红可能会被视为普通收入征税,而非长期资本利得税(取决于投资者所在地的税务规定)。 参考: * SPYI vs QQQI | Which ETF is Better? Which Do I Like More? * 美股ETF终极对决:SPY vs QQQ 选哪个好?AI回测10年数据,定投/All in策略大揭秘 * 退休人士、中老年投资者的最佳ETF?QQQI、JEPQ对比 以下为主要内容的图文介绍: 📊 核心定义——两大阵营,四种角色 * 标普500阵营: * SPY:追踪标普500指数,包含500家大公司,代表美国整体国运。低分红(约1.3%),专注资本增值。 * SPYI:追踪标普500的“高收入版”,通过备兑看涨期权(Covered Call)赚取权利金,目标高额月度分红(年化约12%)。 * 纳斯达克100阵营: * QQQ:追踪纳斯达克100(非金融),重仓苹果、微软、英伟达等科技巨头。高成长、高波动,分红极低(约0.6%)。 * QQQI:纳指100的高收入版,同样采用备兑看涨期权,年化分红高达14%。 📈 牛市表现——差距有多大? 10年回测(2015-2025年)显示: * 一次性投入1万美元:QQQ最终价值约5.47万美元(年化18.53%),SPY为2.82万美元(年化11%)。QQQ的进攻性远超SPY。 * 备兑看涨期权的代价:SPYI和QQQI在牛市中会“封顶”上涨空间。即使QQQI有14%的分红,其总回报仍会明显落后于QQQ,因为卖出的看涨期权限制了股价涨幅。 🛡️ 震荡市与下跌市——谁更抗跌? * 下跌市中的“缓冲垫”:SPYI和QQQI的12%-14%高分红可以抵消部分股价下跌的亏损。SPYI(标普500基础)波动更低,比QQQI更稳健。 * 震荡市的隐患:QQQI会额外购买价外看涨期权,试图捕捉一点上涨收益。但在横盘市场中,这些期权会随时间贬值,反而拖累表现。 * 修复能力:标普500最大回撤修复期约17个月,远短于纳斯达克100的26个月。 💰 税务优势——为什么SPYI/QQQI适合退休“提现”? NEOS系列产品的核心亮点:分红中90%以上被归类为“资本返还”(ROC),这意味着你拿到手的钱暂时不用缴税,而是通过降低持仓成本递延征税。同时使用1256合约,享受60%长期+40%短期的优惠税率,远低于普通工资收入的税率。 🧭 养老定投建议——“攒钱期”与“领钱期”的资产转换 * 20-35岁(积累期):距离退休还远,优先追求资本增值。核心配置QQQ(70%以上)。 * 35-50岁(平衡期):兼顾攻守。建议50% QQQ + 50% SPY。 * 50岁以上或退休人士(提现期):首要任务是稳定现金流。以SPY为绝对核心(80%以上);若需要每月“退休工资”,则SPYI/QQQI是绝佳选择——每月稳定、税收高效的分红直接覆盖生活开支。 * 一个动态策略:年轻时100%定投SPY,临近退休前5-10年逐渐将部分仓位转换为SPYI,平滑波动并开启现金流模式。
AI 编程工作流:从约束对齐到自动化实施你有没有发现,和 AI 聊得越久,它就越“笨”?答案越来越敷衍,细节不断丢失——这不是错觉,而是 LLM 的固有缺陷:上下文越长,注意力越分散。Matt Pocock 将这种现象称为“迟钝区”(Dumb Zone),并提出了一套系统性的工作流,确保 AI 始终在“智能区”内高效运转。 本期内容源自 Matt 的实战演讲。你将学到一套四阶段方法论:从“Grill Me”对齐(让 AI 像面试官一样拷问你),到垂直切片与看板拆分,再到 AFK 自动化实施(使用 TDD 和 Ralph 循环),最后是人工 QA 与代码审查。他强调,AI 时代依然需要遵循软件工程的基本原理——深层模块、共享理解、反馈循环。对于受够了“AI 越用越蠢”的开发者而言,这套工作流或许是你的解药。 Matt Pocock 的工作流证明,AI 时代不仅没有淘汰软件工程基本原理,反而让它们变得更加重要——共享理解、测试驱动、深层模块、人类品味。用好这些原则,你就能让 AI 始终待在“智能区”,成为真正的生产力放大器。 参考:Full Walkthrough: Workflow for AI Coding — Matt Pocock 以下为主要内容的图文介绍: 🧠 理解 LLM 的“智能区”与“迟钝区” * 核心洞察:LLM 的注意力关系随上下文长度呈二次方规模增长,当超过约 100k token 后,性能开始断崖式下降。 * “记忆碎片”特性:LLM 容易遗忘或产生状态混乱。Matt 建议频繁清除上下文并从头开始,而不是通过“压缩”历史来延续对话。 * 应对策略:拆分任务,确保每个子任务都在 AI 的“智能区”内完成。 🔄 四阶段工作流——从对齐到自动化 1. 对齐阶段:Grill Me(拷问我) * 开发者在写任何代码前,先让 AI 扮演“面试官”,不断追问计划细节,直到双方达成“设计概念”的共识。 * 这种“无情”的追问能暴露边界情况和隐藏假设。 2. 规划阶段:PRD 与垂直切片 * 将对齐结果写成产品需求文档(PRD),包含用户故事、决策和测试标准。 * 采用“示踪弹”方法:每个任务都是跨越全栈各层的垂直切片,而非按数据库、API、前端水平拆分。这能让你获得即时反馈。 * 将PRD拆解为看板任务单,标注依赖关系,实现多代理并行开发。 3. 实施阶段:AFK(脱离键盘)自动化 * Ralph 循环:AI 代理自主从积压任务中领取任务、开发、提交。 * TDD(测试驱动开发):测试是 AI 的“眼睛”。通过“红-绿-重构”循环,确保质量并防止 AI 作弊。 4. 评审阶段:QA 与代码审查 * 人工施加审美判断,防止系统沦为平庸的“内容垃圾”。 * 使用另一个处于“智能区”的 AI(如 Opus 模型)进行独立代码审查。 🏗️ 代码库架构如何影响 AI 效果 * “糟糕的代码库会产生糟糕的代理”:AI 生成的代码质量直接受代码库结构影响。 * 深层模块(Deep Modules):具有简单接口和复杂内部逻辑的模块,比复杂零散的浅层模块更易于 AI 理解和测试。 * 架构作为地图:开发者应亲自设计模块接口,将具体内部实现委托给 AI。这样既能掌控全局,又能释放生产力。 🎯 核心总结 * 人负责对齐和 QA,AI 负责实施。通过高质量的反馈循环(TDD)和清晰的架构边界,开发者可以在 AI 辅助下高速交付高质量软件。 * 保留人类对系统的最终控制权和“品味”,避免 AI 生成低质量的代码“废料”。
Harness Engineering:AI智能体约束工程指南当 AI 可以无限生成代码,软件开发的稀缺资源不再是实现,而是人类的时间、注意力,以及模型的上下文窗口。OpenAI 的 Ryan Lopopolo 提出了一种新范式——“底座工程”(Harness Engineering):工程师从“键盘上的双手”转变为系统设计师和委派者,为AI智能体搭建环境、规则和工具集,让智能体独立完成从编码、测试到部署的全链路。 本期内容将带你走进这场软件工程革命。你会看到,为什么代码不再是瓶颈;如何通过技能封装、垃圾回收日和 ADRs 显性化规则,让 AI 智能体产出稳定高质量的结果;以及为何工程师应该追求“挂机”开发——让智能体在通勤时自动跑通测试。这不仅是效率提升,更是对开发者角色的根本重塑。 底座工程不是让 AI 写更多代码,而是通过构建高度结构化、可预测且具备自愈能力的开发环境,将 AI 从一个需要手把手教的初级程序员,变成一个可以委派复杂任务的全职软件工程师。代码免费的时代,你的真正价值在于设计那个“底座”。 参考: * Harness Engineering: How to Build Software When Humans Steer, Agents Execute — Ryan Lopopolo, OpenAI * 工程技术:在智能体优先的世界中利用 Codex 以下为主要内容的图文介绍: 🧠 核心哲学:代码免费,实现不再是稀缺资源 * 范式转移:随着 GPT-5.2 等大模型能力的飞跃,实现(Implementation)的成本已趋近于零。代码可以自由生成、重构、删除。 * 工程师角色的转变:从“敲代码的双手”变为系统思想家、设计者和委派者。你的核心工作是消除智能体的阻碍,建立能让它高效运作的结构。 * 真正稀缺的资源:变成了人类的时间与注意力,以及模型的上下文窗口。 🔧 底座工程的三大策略 * 上下文管理:上下文会逐渐被“调出”,因此需要通过评审员智能体(reviewer agent)或自动化机制持续刷新上下文,确保模型始终拥有正确的信息。 * 非功能性需求的显性化:智能体需要明确的指令来理解“高质量”。通过编写 ADRs(架构决策记录)、Persona 文档和详细的 QA 计划,将人类专业知识固化为智能体可执行的准则。 * 通过 Lint 和测试实施约束:使用定制化Lint规则(如限制文件行数、强制网络请求重试)来约束智能体的输出,保证交付质量的一致性。 ⚙️ 操作实践:从技能封装到垃圾回收 * 技能(Skills)驱动:不提供数十个琐碎工具,而是封装成5-10个高质量“技能”,隐藏底层复杂性。例如一个“添加新API端点”的技能,内部自动处理路由、验证、测试等。 * 垃圾回收日:每周固定时间(如周五)分析智能体在 PR 中产生的“废料”(slop),通过改进文档或Lint规则,从制度上彻底消除此类错误,形成自我修复循环。 * 标准化代码库:统一的编程语言、工具库和结构,使 Token 消耗更可预测,提升智能体执行效率。 * 并行与自动化:利用智能体无限并行的能力,处理低优先级任务或大规模代码迁移(例如将整个代码库从 A 框架迁移到 B 框架)。 🚀 未来愿景:全自动化工作流 * 挂机开发:工程师只需设定 Token 预算、优先级和成功指标,智能体便能独立、持续地推进产品开发。 * 摆脱同步驱动:Ryan 展示了在通勤时通过笔记本挂载,让智能体自动迭代代码直到测试通过。人类不再需要实时监控。 * 终极目标:让代码生产无限且高效,将人类从繁琐的开发循环中彻底解脱出来。
GPT-5.5 vs Claude Opus 4.7:编程代际之战当 GPT-5.5 的终端操作得分飙至 82.7,远超 Opus 4.7 的 69.4;当它在高级工程师基准上拿下 62.5 分,而对手只有 30 分——AI 编程竞赛的格局正在被重新定义。但更令人惊讶的是成本逻辑:GPT-5.5 单价翻倍,却因极高的令牌效率,让总支出反而低于前代和竞品。 本期内容将深度剖析 OpenAI 最新旗舰模型 GPT-5.5(代号“Spud”),并与 Anthropic 的 Claude Opus 4.7 展开全面对比。你会看到,GPT-5.5 如何以“从零重构”的魄力碾压“打补丁”式编程;为何最佳工作流变成“用 Opus 写计划,用 GPT-5.5 执行”;以及它在金融、医疗等企业级场景中高达 20% 的准确率提升。当然,100万 token 的上下文窗口之殇和审美直觉的差距,依然让 Claude 在某些领域保有“上限”。这是一场关于自主智能体未来的关键战役。 GPT-5.5 展现了从“辅助工具”向“自主智能体”的进化。它用更高的单价换来了更低的实际成本,用从零重构的魄力重新定义了 AI 编程。而 Claude Opus 4.7 仍是规划和上下文的王者。最佳实践或许就是:让 Opus 思考,让 GPT-5.5 行动。 参考: * Introducing GPT‑5.5 * OpenAI is BACK (GPT-5.5) * I Tested GPT 5.5 vs Opus 4.7: What You Need to Know * We Tested GPT-5.5 for 3 Weeks. It's a Beast. 以下为主要内容的图文介绍: 📊 基准测试——终端操作、数学与专业领域全面领先 * Terminal Bench 2.0:GPT-5.5 得分82.7,远超 GPT-5.4(75.1)和 Claude Opus 4.7(69.4)。 * Frontier Math:排名第一,数学推理能力代际领先。 * 企业级应用(Box AI 测试): * 金融服务:准确率提升近20% * 医疗保健:从61%升至78% * 公共部门:提升13% * 媒体娱乐业:显著增长 * 网络安全(Cyber Gym)与通用知识工作(GDP Val):均优于竞争对手。 🧠 编程革命——从“打补丁”到“从零重构” * 高级工程师基准:GPT-5.5 得分62.5/100,Claude Opus 4.7 仅约30分——差距超过一倍。 * 底层重构能力:与以往模型“修补”模式不同,GPT-5.5 能识别核心原则,敢于删除旧文件,从零开始重构整个系统。 * 语言偏好:TypeScript 和 Swift 表现卓越,Ruby 相对较弱。 * 最佳工作流:测试发现,用 Claude Opus 4.7 写详细计划 + 用 GPT-5.5 执行能发挥最强性能。Opus 擅长逻辑清晰、契约导向的规划,GPT-5.5 是当今最强大的“执行者”。 💰 令牌效率——单价翻倍,总成本反降 * 定价:输入$5/百万token,输出$30/百万token,是 GPT-5.4 的两倍。 * 效率奇迹:完成相同任务所需 token 数远少于前代。例如生态系统模拟中,GPT-5.5 仅用2.8万输出 token,达到 Opus 4.7 用25万 token 才有的效果。 * 实际成本:多项测试显示,尽管单价翻倍,但由于 token 消耗大幅减少,总支出往往低于 GPT-5.4 或 Opus 4.7。 🗣️ 性格进化与用户体验 * 告别冗长:抛弃了 GPT-5.4 “僵硬、正式、长篇大论”的风格,变得更简洁直观,直接给出结果而非论文式解释。 * 文字创作:在商业写作和声音/文风复制上表现卓越,能微妙捕捉特定风格。 * 极低延迟:得益于 GB200/GB300 推理优化,性能大幅提升同时保持了与5.4相同的响应速度。 ⚖️ 第五章:局限性与对比 * 上下文窗口:40万 token(Codeex 中),仍逊于 Claude Opus 4.7的100万。 * 审美直觉:在某些需要极度敏锐洞察力或审美判断的任务中,Claude 4.7被认为“上限更高”。 * 可用性:已在 ChatGPT Pro 和 Codeex 中上线,API 开发版即将推出。
Actor模型:破解多核并发困局曾经,我们只要坐等 CPU 频率年年攀升,软件性能就能自动翻倍。但那个“免费午餐”的时代已经结束了——散热和功耗把单核频率锁死,处理器转向了多核架构。这意味着,开发者必须学会编写并发程序。然而,传统的共享内存、加锁模式,正在让无数工程师陷入死锁、竞争条件和无尽的调试噩梦。 有没有一种更优雅、更健壮的并发方案?答案来自于 1973 年的一篇论文——Actor 模型。本期内容将带你走进这个“万物皆为 Actor”的并发世界。你会了解到,如何通过无共享状态和异步消息传递,从根本上消除对锁的需求;看看 Erlang、Akka、Elixir 等生态如何让系统轻松扩展到数百万并发;以及 Facebook、Twitter、RabbitMQ 等真实案例如何验证其威力。当然,我们也会直面它的局限:共享状态和全局共识依然是难题。但无论如何,Actor 模型都是你构建高可扩展、高容错系统时绕不开的一把钥匙。 Actor 模型是一种设计并发和分布式系统的数学理论,它将计算单元分解为独立的“演员”(Actors),这些演员之间通过异步消息传递进行通信和协作。该模型于 1973 年由 Carl Hewitt 等人提出,旨在从根本上解决传统并发编程中的复杂性问题。 核心思想:解耦与封装 Actor 模型的核心思想在于将状态、行为与通信彻底分离: * 独立自治:每个 Actor 都是一个独立的计算单元,封装了自己的私有状态(State)和行为逻辑(Behavior)。 * 异步消息驱动:Actor 之间不共享任何状态,仅通过异步消息进行交互。发送方发送消息后无需等待回应即可继续执行,实现了通信双方的解耦。 * 信箱隔离:每个 Actor 都拥有一个“信箱”(Mailbox,通常是一个 FIFO 队列)。所有发送给它的消息都会被暂存于此,并由 Actor 单线程地、依次地从信箱中取出并处理。 这种设计从根源上避免了传统多线程编程中令人头疼的共享数据竞争、锁(Lock)和死锁问题。 解决的核心问题 Actor 模型旨在解决传统并发编程模型在处理复杂系统时遇到的几大难题: 1. 共享状态与锁的复杂性:在共享内存模型中,多线程访问共享数据必须使用锁来保证一致性,但锁的使用极易导致性能下降、死锁和竞态条件。Actor 模型通过不共享状态、单线程处理消息的方式,彻底规避了锁的使用。 2. 封装性的失效:在面向对象语言中,对象的状态本应是私有的,但在多线程环境下,多个线程可以同时调用一个对象的内部方法,破坏其封装性和内部状态的一致性。Actor 模型确保每个 Actor 的内部状态只能被自己的单一线程修改,从而保证了封装性。 3. 系统的容错性:传统的错误处理方式通常是链式的,一个模块的失败可能导致整个链路崩溃。Actor 模型引入了“监督”(Supervision)策略,允许 Actor(尤其是父 Actor)监控其子 Actor 的运行状况,并在子 Actor 失败时决定是重启、停止还是忽略它,构建了更健壮的“永不崩溃”系统。 4. 分布式扩展的挑战:传统模型通常假设系统运行在一个单一进程或内存空间中,难以自然地扩展到网络上的多台机器。Actor 模型通过“位置透明性”(Location Transparency),即一个 Actor 无论位于本地还是远程节点,发送消息的方式都完全相同,从而极大地简化了分布式系统的构建。 主要使用场景 由于其高并发、高容错和分布式的特性,Actor 模型尤其适合以下场景: * 大规模分布式系统:如社交网络平台、电子商务系统、物联网平台,这些系统需要处理海量并发用户请求,并能在节点故障时保持稳定。 * 高性能Web服务与中间件:许多高性能中间件都基于 Actor 模型构建,例如著名的消息队列 RabbitMQ 就是基于 Erlang/OTP 开发的。 * 游戏服务器:在大型多人在线(MMO)游戏中,每个玩家、NPC(非玩家角色)或游戏场景都可建模为一个 Actor,通过消息处理玩家的行为、技能、状态同步等。 * 实时通信与流处理系统:如聊天应用、实时数据分析和事件流处理平台,Actor 的异步消息模型能保证低延迟和高吞吐量。 * 物联网(IoT):处理海量、异构设备的事件数据,需要模型能轻松扩展并具备容错能力。 在游戏领域的具体应用 Actor 模型的特性与游戏服务器(特别是 MMO)的需求高度契合,是构建现代游戏后端的主流架构之一。 * 建模游戏逻辑: 将游戏世界中的独立实体建模为 Actor。例如: * 每个玩家的角色可以被建模为一个 Actor,它负责处理该玩家的移动、攻击、聊天等所有请求。 * 每个 NPC(非玩家角色) 或怪物可以被建模为一个 Actor,它独立管理自己的AI状态和行为逻辑。 * 每个游戏场景或地图区域可以被建模为一个 Actor,它负责管理该区域内所有玩家的状态同步和交互。 * 异步处理与高并发: 在激烈的战斗中,大量伤害计算、技能释放等操作会同时发生。Actor 模型通过异步消息处理,使不同玩家的 Actor 能并行处理各自的消息,避免了全局锁带来的性能瓶颈。例如,当技能命中时,玩家 A 的 Actor 异步地发送一个“伤害消息”给玩家 B 的 Actor,玩家 B 的 Actor 再异步地更新自己的状态(如血量)。 * 简化状态同步: 在 MMO 中,一个玩家进入另一个玩家的视野时,需要进行状态同步。利用 Actor 模型,可以轻松地将“视野”内的所有玩家 Actor 互相订阅,通过发送位置更新消息来实现高效的同步,避免了传统广播或 channel 模型中的复杂耦合和性能陷阱。 以下为主要内容的图文介绍: 🧱 第一章:核心定义——万物皆为 Actor Actor 模型将并发计算的基本单元称为“Actor”。每个 Actor 都是一个独立的实体,封装了处理逻辑、内部状态和通信渠道。当一个 Actor 收到消息时,它可以执行三种基本操作: * 发送消息:向其他已知地址的 Actor 发送有限数量的消息。 * 创建新Actor:生成新的子 Actor。 * 指定新行为:改变自己处理下一条消息时的内部状态。 这三个操作构成了 Actor 模型的公理。简单、纯粹,却威力无穷。 🔑 第二章:关键特性——无共享、异步、信箱 * 无共享状态:Actor 之间不共享任何内存。每个 Actor 拥有私有的、隔离的状态。这从根本上消除了对锁的需求,彻底告别死锁、竞态条件和数据不一致。 * 异步消息传递:消息发送是非阻塞的。发送者发出消息后可以立即继续工作,无需等待接收方响应。 * 信箱机制:每个 Actor 有一个“信箱”缓冲收到的消息。Actor 按顺序(通常是 FIFO)逐一处理,确保单线程内的确定性。 * 位置透明:Actor 通过地址寻址,无论是本地还是远程,调用方式完全一致。这让 Actor 系统天然具备分布式扩展能力。 ⚙️ 第三章:理论优势——可扩展、容错、贴近物理世界 * 高可扩展性:由于 Actor 之间完全解耦,系统可以轻松地在多核 CPU 或成百上千台机器上水平扩展。 * 容错性:支持“任其崩溃”(Let it crash)哲学。单个 Actor 的失败不会影响其他部分,父 Actor 可以通过监管树自动重启子 Actor,实现自愈系统。 * 不确定性处理:Actor 模型天生适应消息延迟、乱序等物理世界的不确定性,比传统图灵机模型更贴近真实分布式环境。 🌍 第四章:真实生态与案例 * 语言与框架: * Erlang:最早将 Actor 模型作为核心并发机制,以超高并发和“九个9”可用性著称。 * Scala/Akka:JVM 上最流行的 Actor 实现,广泛应用于金融、游戏、物联网。 * Elixir:基于 Erlang VM 的现代语法,保留了 Actor 的全部威力。 * 其他:Groovy 的 GPars、Dart 的 isolates、Swift 的 actor、Pony 等。 * 现实世界案例: * Facebook聊天:曾用 Actor 模型处理数千万并发用户。 * Twitter:利用 Actor 提升系统伸缩性。 * RabbitMQ、CouchDB、Ericsson 电信交换机——均基于 Actor 模型构建,证明了其工业级可靠性。 ⚠️ 第五章:局限性——并非万能钥匙 * 共享状态困难:如果业务逻辑确实需要全局一致的共享状态(如银行账户余额),实现起来相对复杂。 * 全局共识:在分布式 Actor 系统中达成所有节点的一致性共识(如分布式锁、选主)非常困难。 * 思维转换成本:从顺序执行的“函数思维”切换到异步消息流转的“Actor 思维”,对开发者是不小的挑战。 总结:Actor 模型通过无共享、异步消息、隔离失败,提供了一种比传统线程加锁更高层、更安全的并发抽象。它不会取代所有编程场景,但在构建高并发、高可用、分布式的现代系统中,Actor 模型依然是那颗最闪亮的明星。
Claude Opus 4.7:变强背后的隐形代价当 AI 开始自己检查自己的逻辑漏洞,当它能看清高密度屏幕截图里的每一个像素,当它在软件工程基准测试中一举将解决率从 53.4% 推至 64.3%。Anthropic 最新发布的 Claude Opus 4.7,正在将“AI 代理”从概念推向生产级现实。 本期内容将为你深度拆解这款号称“最强大通用模型”的升级亮点。你会看到,它在自主编程、视觉解析、长程任务记忆上的实质性飞跃;了解新增的“xhigh”努力程度和任务预算功能如何让开发者精细控制推理成本;也会直面其与未公开的“最强模型”Mythos 的差距,以及新版分词器导致 Token 消耗增加的争议。对于任何希望将 AI 真正用于金融分析、法律审查、复杂工程的人来说,Opus 4.7 都是一次值得认真评估的进化。 Claude Opus 4.7 不是一次“挤牙膏”式更新,而是向着高度自主 AI 代理迈出的实质性一步。它的视觉能力、长程任务处理和自我校验机制,为金融、法律、生命科学等专业领域打开了新的可能。当然,Token 成本的增加和桌面应用的稳定性问题,也提醒我们:每一次跃进都伴随着新的权衡。 4.7 使用了新的分词器,token 使用成本比 4.6 高了 1 ~ 1.35 倍: 参考: * Introducing Claude Opus 4.7 * What's new in Claude Opus 4.7 以下为主要内容的图文介绍: 📊 软件工程能力——从“53.4%”到“64.3%”的跨越 * SW-bench Pro 基准:Opus 4.7 解决率从 4.6 版本的 53.4% 提升至 64.3%,增幅超过10个百分点。 * 自主长程任务:能够更独立地处理 Bug 修复、CI/CD 工作流、Rust 引擎构建等需要严谨逻辑和持久注意力的复杂工程。 * 自我校验能力:在规划阶段就能发现自身的逻辑错误,减少无效尝试,这是向真正自主代理迈进的关键一步。 🖼️ 视觉感知——分辨率翻三倍,看清每一个像素 * 分辨率提升:最高支持分辨率从1.15MP跃升至3.75MP(长边可达2576px)。 * 应用场景:能够精确读取复杂图表、高密度截图、扫描版PDF表格,甚至进行像素级的视觉任务。 * 文档处理:在金融报告、法律文书、科研论文的视觉解析上表现显著增强。 🧠 记忆与上下文管理——告别重复“自我介绍” * 文件系统记忆:更好地利用草稿本、说明文件等外部记忆,能在长周期协作中记住重要笔记。 * 减少重复:不再需要每次对话都重新交代项目背景、偏好设置,模型会主动调用已存储的信息。 ⚙️ 技术创新与 API 变更 * 新增“xhigh”努力程度:在 coding 场景下官方推荐优先使用,提供更精细的推理深度与响应延迟平衡。 * 任务预算(测试版):为完整代理循环设置建议性 Token 预算,模型能在预算内优先处理核心工作并优雅结束。 * 自适应思考:移除了旧版的“扩展思考”模式,仅保留更优的自适应思考。 * ⚠️ 分词器更新:新算法提升了性能,但相同文本的 Token 消耗增加了1.0至1.35倍——开发者需重新评估成本。 🛡️ 第五章:安全性与市场定位 * 网络安全防护:新增实时检测与拦截机制,能自动阻断与高风险网络攻击相关的请求。 * 行为风格变化:模型变得更直接、有主见,减少了多余的表情符号和寒暄;同时更“字面化”地遵循指令,要求用户提示词更精确。 * 与 Mythos 对比:虽然 Opus 4.7 在各维度仍略逊于尚未广泛开放的“最强模型”Claude Mythos Preview,但在实际生产场景(金融、法律、跨工具协作)中已足够卓越。 💬 第六章:评价与争议 * 正面反馈:Vercel、Notion、Replit 等公司高管称其为“游戏规则的改变者”,尤其在自主性、错误恢复和复杂工具调用上。 * 争议:有观点质疑 Anthropic 是否曾刻意调低 4.6 的性能来衬托 4.7;同时新版桌面应用被曝存在较多 Bug,引发对 QA 流程的担忧。
AutoResearch:Andrej Karpathy的自动科研代理架构如果 AI 能像人类研究员一样,通宵达旦地提出假设、跑实验、分析结果,然后根据效果自动保留好的修改、回滚坏的尝试——而且整个过程无需任何人盯着,你会用它来做什么?Andrej Karpathy 开源的 AutoResearch,正是这样一套让 AI 实现“递归自我改进”的系统。 本期内容将带你深入 AutoResearch 的核心机制。你会看到,它如何通过三文件架构(不可变的 prepare.py、代理可随意修改的 train.py、人类指令 program.md)建立起一个严密的“棘轮循环”:每5分钟,AI 代理提出一个假设,修改代码,运行训练,然后根据评分自动决定保留或回滚。实验结果令人震撼:一夜 83 次实验,模型性能指标从 1.000 降至 0.975,发现了一些人类研究员可能需要数天才能找到的改进。更重要的是,这种模式已扩展到市场营销、量化交易、网页性能优化等领域。当然,它也有“创造力天花板”——只能做增量改进,无法接受短期退步换取长期飞跃。但无论如何,AutoResearch 展示了一种未来:人类将不再执行实验,而是成为定义指标和约束的“研究顾问”。 参考: * https://github.com/karpathy/autoresearch * A Guide to Andrej Karpathy’s AutoResearch: Automating ML with AI Agents * Andrej Karpathy’s AutoResearch: Bye Bye Researchers * Karpathy’s Autoresearch GitHub Explained: How 630 Lines of Code Does ML Research Overnight * Andrew Karpathy’s “autoresearch”: An autonomous loop where AI edits PyTorch, runs 5-min training experiments, and continuously lowers its own val_bpb. "Who knew early singularity could be this fun? * The only AutoResearch tutorial you’ll ever need 以下为主要内容的图文介绍: ⚙️ 什么是 AutoResearch?——AI 版的“自我实验狂人” * 发布背景:2026年3月,Andrej Karpathy 开源的一个 Python 工具。 * 核心目标:在单 GPU 上,让 AI 代理自动执行“提出假设-训练-评估-保留/回滚”的循环,无需人工干预。 * 角色转变:人类从“代码编写者”变为“研究顾问”,AI 负责具体实验执行。 🧱 三文件架构——严密的“权力分离” AutoResearch 建立在三个文件之间的严格“契约”之上: 1. prepare.py(不可变):处理数据准备和评估逻辑,定义衡量标准(如 val_bpb)。它是系统的“公正法官”,AI 和人类都不能修改,确保评估一致性。 2. train.py(代理沙盒):包含模型架构、优化器、训练循环。AI 代理可以随意重写此文件(修改注意力机制、调整学习率等),只要代码能运行并产生分数。 3. program.md(人类指令):人类唯一操作的文件。用 Markdown 设定研究方向、基准分数、运行指令及失败处理规则。 🔄 “棘轮循环”工作流——只能前进,不能后退 * 实验周期:通常每5分钟一个循环。 * 步骤: 1. 代理阅读 program.md、观察 train.py 和历史结果,提出修改假设。 2. 修改 train.py 并提交 Git 分支,开始固定时长训练。 3. 评估新分数:如果 val_bpb 提高,保留该 Git 提交;如果变差或失败,git reset 回滚。 * 公平对比:固定时长预算下,不同规模/架构的修改可公平比较。 * 单向棘轮:代码库只能向更好的方向演进,无法退步。 🚀 应用成果——从机器学习到量化交易 * ML 优化:Karpathy 的实验:一夜83次实验,val_bpb 从 1.000 降至 0.975。发现了 QKnorm 缩放因子、正则化调整等结构性改进——人类可能需要数天。 * 跨领域案例: * 查询扩展模型(Shopify CEO):8小时内准确率提高 19%。 * 网页性能优化:将加载时间从 50ms 降至 25ms。 * 量化交易策略测试、自动化营销 AB 测试。 * 通用条件:任何具有“自动评分函数”的领域都可套用。 ⚠️ 局限性与“创造力天花板” * 创造力天花板:棘轮机制要求每一步必须立即改进,无法为了长期更大收益而接受短期退步,容易陷入局部最优。 * 缺乏新颖性:目前只能在现有架构上做增量迭代,尚未报告能发明全新架构(如全新的注意力机制)。 * 过拟合风险:在同一验证集上上百次实验可能导致对特定评估数据的过拟合。 * 硬件依赖:默认需要 NVIDIA GPU(如 H100),小硬件需调整参数或使用社区分支。 💡 行业评价与未来意义 * 正面:有人认为是“早期奇点”的体现,递归自我优化的开始。 * 批评:也有人觉得只是“更高级的超参数搜索”。 * Karpathy 的总结:代理处理了繁琐的执行工作,但判断研究方向、设定衡量标准的判断力,仍是人类核心竞争力的所在。
具身智能:机器人数据金字塔与演进格局当大语言模型几乎“读完”了互联网上所有公开文本,数据开始枯竭;而在具身智能领域,情况恰恰相反——我们正处在一场数据的极度“荒漠”之中。没有足够高质量的物理世界交互数据,机器人就无法像大模型那样涌现出泛化智能。 本期内容源自光轮智能创始人谢晨的深度访谈。他曾任职于英伟达、蔚来及硅谷自动驾驶巨头,如今正投身于具身智能的数据基础设施建设。你将了解到,为何仿真技术已从“加速器”升级为“先决条件”;具身智能的“数据金字塔”如何分层(真机数据、仿真数据、人类视频);以及为什么“失败”的纠错数据比完美数据更有价值。同时,谢晨描绘了未来产业生态的四方协作图景:大模型商(大脑)、本体公司(身体)、数据商(引擎)、场景商(落地)。对于关心AI如何从数字世界走向物理世界的你,这期内容不容错过。 具身智能的突破,依赖于以仿真为中心、评价驱动的本体无关数据闭环。数据的价值正从“标注”向“反馈与教学”迁移,而仿真技术则是通向 AGI 物理世界落地的基础设施。 参考:Xie Chen : Data Survey — History, Landscape, Pyramid Structure, and Recipes for AI and Robotics Data 以下为主要内容的图文介绍: 📊 数据即教育——从“填鸭”到“名师指导” * 数据与教育类比:谢晨认为,数据对 AI 的意义如同教育对人类学习。不仅是静态信息,更是信号、经验和反馈。 * 数据产业三阶段: 1. 静态数据集(填鸭式) 2. 工业化规模生产(量化教育) 3. 评价与反馈驱动(名师指导、因材施教) * “失败”的价值:在具身智能训练中,先失败再成功的纠错数据(副样本)比完美执行数据更有价值,更接近人类学习过程,能显著提升泛化能力。 🧱 具身智能的“数据金字塔” 由于目前不存在数百万台机器人采集端侧数据,谢晨提出分层结构: * 顶层:真机数据——最准确,但最难规模化、成本最高。 * 中层:仿真数据——极强的规模化能力,是连接虚拟与现实(Sim-to-Real)的关键。 * 底层:本体无关数据(人类视频/互联网数据)——规模最大,通过人类第一人称视角提供物理世界的基本认知,是实现零样本泛化的基础。 * 核心趋势:走向“本体无关”数据路线,利用非机器人本体数据训练“大脑”。 🔧 仿真技术——从“加速器”到“先决条件” * 在自动驾驶中:仿真是加速器,非必需。 * 在机器人领域:仿真是先决条件。没有仿真,规模化训练和评价无法完成。 * 规模化评价的唯一路径:仿真不仅提供训练数据,更是唯一能低成本、可重复、大规模验证算法有效性的工具。 * 与世界模型共生:仿真提供物理准确性,世界模型提供生成与预测能力。二者相互依赖,并非替代。 🧩 产业版图——四方协作与“大脑-身体”分离 * 未来生态四方:大模型商(大脑)、本体公司(硬件与部署)、数据商(数据引擎与评价)、场景商(落地场所)。 * 大脑与身体分离:具身智能大脑由基座大模型厂商主导(泛化性要求高),本体公司专注硬件稳定性与场景微调。 * 大厂激进投入:过去一年,OpenAI、Google DeepMind、NVIDIA、阿里等资源从纯语言模型向物理世界AI倾斜。 🚀 行业终局——从“数据工厂”到“数据引擎” * 数据公司的新定义:不是标注工厂,而是以评价为中心的系统驱动型实体,通过技术放大人类经验。 * AI 的自我修炼:远期,AI 将从向人类学习转为在仿真环境中通过强化学习自我进化。届时,高质量的仿真环境和评价指标将成为最核心的需求。
从层级到智能:未来组织的重构从罗马军团到现代企业,组织层级制一直是我们处理大规模协作的“信息路由协议”。但 Jack Dorsey 认为,AI 的到来将彻底终结这套延续两千年的管理逻辑。 本期内容将带你深入 Block 公司正在进行的激进实验:用“公司世界模型”取代中层管理者,让 AI 实时维护组织运作图景;用“客户世界模型”自动识别需求并组合原子能力,无需产品经理预设路线图。你会看到,在这种“智能层”架构下,人类被推向“边缘”,只负责直觉、道德和高风险决策;而三种新型角色(独立贡献者、直接负责人、球员兼教练)正在取代传统的上传下达岗位。当然,争议同样存在:这是未来蓝图,还是为裁员找的借口?Block 正“在飞行中重组飞机”,这场实验值得每一个关心组织未来的人密切关注。 Dorsey 的愿景描绘了一个由 AI 充当“协调中枢”、消除永久性中层的未来企业。无论最终能否成功,这场实验都已迫使我们去思考:当信息流动不再需要人类中转时,组织的形态、管理的本质、以及我们每个人的角色,将如何被重新定义。 参考: * From Hierarchy to Intelligence * Jack Dorsey's thesis on the future of work: From Hierarchy to Intelligence * Jack Dorsey’s Newest Plan to Replace Managers With AGI at Block 原文翻译: 以下为主要内容的图文介绍: 🧠 科层制的本质——两千年的“信息路由协议” * 历史的局限:从罗马军队到现代企业,层级制本质上是为了解决人类管理跨度有限的问题——必须通过中层传递信息、协调决策。 * 代价:信息流动缓慢、官僚主义滋生、决策迟缓。 * AI 的破局:Dorsey 认为,AI 已能承担这种“协调功能”,不应只是个人生产力工具,而应成为组织的核心,将公司重构为一个“小型通用人工智能”。 🏗️ Block 的实践——构建“公司世界模型” * 公司世界模型:利用所有内部记录(决策、代码、计划)作为原始资料,由 AI 实时维护公司运作图景,取代管理者传递上下文的职能。 * 客户世界模型:基于支付和消费的真实交易信号,构建对客户和商家的深度理解,自动识别需求并组合原子能力(支付、信贷、工资发放等),无需产品经理预设路线图。 🧩 组织重构——人类被推向“边缘” * 智能体在中心:AI 负责信息流转和协调。 * 人类在边缘:处理模型无法感知的领域——直觉、文化、道德、高风险决策。 * 三种新型角色: 独立贡献者:构建和操作系统的专家。 直接负责人:跨部门解决特定问题。 球员兼教练:既参与构建,又培养人才,取代中层管理者。 🛠️ 现实工具与争议 * builderbot:集成在 Slack 中的智能工具,能回答复杂业务数据问题、生成 SQL、推荐相关员工。 * 争议: 可行性怀疑:许多公司连基础数据流都搞不清。 管理本质争论:层级制可能是不可还原的。 转型风险:Block 正“在飞行中重组飞机”,充满不确定性。
21个智能体设计模式:构建可靠AI系统当大语言模型不再只是“回答问题”,而是需要自主规划、调用工具、甚至与其他 AI 协作完成任务时,你如何确保它不会跑偏?答案是:设计模式。 本期内容将带你系统学习一本实战指南中的21种智能体设计模式。你会发现,从简单的提示链(将复杂任务拆成顺序步骤)到路由(动态选择执行路径),再到多智能体协作(项目经理+研究员+写作者各司其职),每一步都旨在提升 LLM 的可靠性。我们还会拆解反思、记忆管理、护栏等模式如何让智能体具备自我纠错和安全边界。无论你是用 LangChain、CrewAI 还是 Google ADK,这套“智能体架构学”都能帮你构建真正可落地的自主系统。 智能体设计模式不是零散的技巧,而是一套架构学。通过将规划、工具调用、反思、多智能体协作等模式巧妙组合,你就能构建出处理真实世界复杂性的强健自主系统。 以下是21种智能体设计模式的内容概括: 🧠 智能体演进四阶段——你的 AI 处于哪个 Level? * Level 0 核心推理:基础 LLM,只会文本生成。 * Level 1 连接工具:能调用 API、数据库、代码解释器。 * Level 2 战略规划:具备拆解目标、制定计划的能力。 * Level 3 多智能体协作:多个专业智能体(规划者、执行者、校验者)组成团队协同工作。 🧩 21 种设计模式分类——从基础逻辑到协作治理 1. 基础行动与逻辑控制 提示链:顺序拆解复杂任务,每步依赖上一步输出。 路由:根据输入类型动态选择工具或子流程。 并行化:同时执行无依赖的子任务。 规划:将高层目标分解为可执行步骤。 2. 外部环境与知识交互 工具使用:函数调用连接外部 API、数据库。 知识检索(RAG):减少幻觉,支持引用。 模型上下文协议(MCP):标准化集成外部系统。 3. 系统认知、状态与自我提升 记忆管理:区分短期上下文与长期存储。 反思与自我纠错:通过反馈循环迭代优化输出。 学习与适应:根据经验调整策略(如自我改进编码智能体)。 推理技术:思维链(CoT)、思维树(ToT)、ReAct 等。 4. 协作、安全与治理 多智能体协作:角色化团队(项目经理、研究员、写作者)。 智能体间通信(A2A):跨框架任务委托。 护栏:输入/输出过滤、行为约束。 人类参与(HITL):关键决策点人工审批。 🛠️ 工程化实践——主流框架与资源优化 * 框架选择:LangChain/LangGraph(有状态循环流)、CrewAI(角色化协作)、Google ADK(企业级部署)。 * 推理扩展定律:为复杂任务分配更多计算资源;动态路由在高端模型(如Gemini Pro)与经济模型(Gemini Flash)间权衡。 * 评估治理:从简单指标到“智能体轨迹评估”,甚至用“合同”将智能体变为可问责的承包商。 🔮 未来五大假设 * 通才智能体的出现 * 深度个性化与主动目标发现 * 具身化物理交互 * 智能体驱动的经济 * 目标导向的变形多智能体系统
领域驱动设计:Domain-driven design 如何驯服复杂系统当软件系统变得庞大,技术团队与业务部门之间最常出现的是什么?沟通鸿沟——技术术语与业务概念各说各话,代码最终偏离了真实需求。Eric Evans 在20年前提出的领域驱动设计 Domain-driven design (DDD),正是为了解决这一经典困境。 本期内容将带你系统了解这套以“业务为中心”的软件开发方法论。你会明白,为什么通用语言是消除沟通隔阠的基石;如何通过限界上下文将大系统拆解为边界清晰、互不污染的子领域;以及实体、值对象、聚合等战术模式如何确保数据一致性和业务逻辑的完整性。无论你是在微服务架构中划分服务边界,还是希望让代码真正反映现实业务的演变,DDD 都提供了一套久经考验的战略与战术工具箱。 DDD 不是一套僵化的规则,而是一种思维方式。它要求我们直面业务复杂性,通过通用语言和清晰的边界,让软件架构真实反映业务世界。当你的代码开始“说业务的语言”,维护、扩展和团队协作都将变得前所未有的顺畅。 以下为主要内容的图文介绍: 🧭 第一章:核心理念——让代码成为业务的“镜像” * 以领域为中心:不再从技术视角(数据库、API)出发,而是将核心领域和业务逻辑置于项目首位。 * 协作建模:开发人员与领域专家(业务人员)持续迭代,共同构建一个能准确解决业务问题的概念模型。 * 对抗复杂性:通过将大系统拆分为更小、更易管理的部分,DDD 帮助团队驾驭大型复杂系统。 🗺️ 第二章:战略设计——划定边界,统一语言 * 子域:将业务划分为核心域(如Netflix的视频流)、支撑域或通用域(如计费、推荐)。 * 通用语言:这是 DDD 的支柱。业务人员和工程师描述应用对象时使用完全相同的术语,彻底消除“技术翻译”环节。 * 限界上下文:定义模型发挥作用的显式边界。同一术语在不同上下文中含义不同(如“用户”在计费域叫“订户”,在流媒体域叫“观众”)。 * 上下文映射:用于定义和可视化不同子域或上下文之间的关系及通信方向。 * 防腐层:一个转换层,用于在领域间进行翻译,防止一个领域的逻辑“污染”另一个领域。 🧩 第三章:战术设计——构建领域模型的“乐高积木” * 实体:具有唯一标识的对象。即使属性全变,只要ID相同,就是同一个实体(如用户 ID)。 * 值对象:没有唯一标识,由其属性定义的不可变对象(如地址、颜色)。属性相同即视为相等。 * 聚合:一组实体和值对象的事务边界。每个聚合有一个聚合根,外部只能通过根对象访问内部成员,由根负责维护业务规则和一致性。 * 领域事件:领域专家关心的、业务上重要的事件(如“订单已支付”)。 * 仓库与服务:仓库负责聚合的持久化和检索;服务处理不属于单一对象或跨越多个聚合的业务逻辑。 🏛️ 第四章:相关技术与架构 * 微服务对应:在微服务架构中,一个限界上下文通常对应一个微服务,边界清晰,可独立部署。 * CQRS:命令查询职责分离,将读(查询)与写(命令)分离,常与 DDD 结合。 * 事件风暴:一种工作坊式的协作建模技术,用于快速识别领域事件、聚合和边界。 * 六边形架构:被认为是构建领域驱动应用的最佳架构之一,将领域模型置于中心,隔离外部依赖。