

EP125:智谱CEO唐杰-AI时代“认知>格局>技术>管理”执行摘要 本文档基于智谱CEO唐杰对AI时代竞争范式的深度分析,探讨了企业管理、技术演进、个人认知以及通向通用人工智能(AGI)路径的根本性转变。核心观点认为,AI时代已彻底改变了成功的优先级,将其重塑为:认知 > 格局 > 技术 > 管理。 在这一新范式下,传统的管理模式正在失效,技术权重被提升至前所未有的高度。成功的关键不再是单纯的商业模式创新或产品打磨,而是对技术快速进步的极端敏锐度以及深度的底层认知。实现AGI被视为一场“猎龙游戏”,不仅需要深厚的技术积淀,更需要具备“第一性原理”思维、纯粹且无内耗的团队。 核心主题分析 1. 管理与技术的位势反转 文档指出,传统的企业成功曾高度依赖管理,但在AI时代,这一逻辑发生了剧变: * 组织扁平化: AI化导致大量中间层失去存在意义,企业结构趋向天天扁平化、去中层化。 * 管理者的危机: 管理仍然有用,但不懂技术、甚至不深入技术的管理者将面临“无从管理”的困境。 * 技术权重提升: 工程师文化复兴,技术的重要性已超越传统管理,成为企业生存的核心。 2. 技术演进的极速特征 AI时代的技术进步呈现出前所未有的密度和烈度: * 迭代周期: 不同于以往每隔几年才出现一篇里程碑论文,现在几乎每隔几天就会出现新技术(如预训练infra、Agentic RL、self-judge、OPD等)。 * 掉队风险: 技术落后不再是“慢慢掉队”,而是“一夜之间”的事情。这种高频的突破要求从业者必须时刻追踪前沿,否则随时可能被牌桌踢出。 3. 格局作为生存的天花板 “格局”被定义为衡量个人成就上限的标尺: * 战略布局: 成功依靠想象力与对主要矛盾的把握。缺乏格局会导致由于盘子太小而自然落后。 * 否定“追随策略”: 在AI时代,“先收缩、等别人做出来再抄”的逻辑已不再适用。等到追随者反应过来时,技术窗口早已关闭。 4. 认知的核心地位:历史维度的对比 文档将AI时代的认知与过去二十年的创业逻辑进行了对比,强调了当前的本质区别: 核心结论: AI时代的本质是技术的极速演进,认知是其中最关键的变量。 5. AGI的“猎龙游戏”与团队特质 实现AGI被描述为终极目标,其达成路径具有独特性: * 专注本质: 必须专注于主线,摒弃所谓的“打兔子”动作(次要目标)。 * 反传统范式: AGI没有标准答案,传统的学术定义、设计算法、做实验、出原型的流程已不再适用。 * 成功要素: * 对AGI的极度热爱与笃定(第一性原理思维)。 * 深厚的技术积淀与细节把控。 * 团队纯粹性: 强调“不内耗”、“不墨迹”、简单纯粹的人。文档特别指出,年轻并不等同于纯粹,纯粹是剔除复杂心计后的本质状态。 6. 对计算机科学(CS)知识体系的颠覆 AI的发展正在重塑知识权威: * 知识体系重构: 传统的CS理论和数学推导正面临挑战,AI的数学推导已超越大多数CS研究生和程序员。 * 资历贬值: CS领域的资历正失去作用,传统的层级被拉平。 * 超级个体(IC)的崛起: 只有具备“超前认知”的独立贡献者(IC)才能在AI时代生存。 结论与预判 AI时代是一个充满不确定性的时代。文档最后提出,目前的认知迭代速度极快,以至于人们无法预见5年后的AI形态,甚至对2年或1年后的发展都难以准确预测。 在这个时代,快速迭代知识和快速提高认知是唯一的生存之道。传统的经验(“经历”)不再是资产,不内耗、不墨迹、保持纯粹的技术追求和底层思考,才是通往AGI终局的必经之路。 📺播客说明 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP124:OpenAI Codex负责人-AI时代产品工作的全新形态当AI让任何人都能在几小时内构建出一个产品原型,产品开发的规则被彻底改写。OpenAI Codex产品与工程负责人Andrew Ambrosino将带我们深入这场变革的核心,揭示为何在技术实现成本趋近于零的时代,“品味”反而成为了最稀缺、最昂贵的资产,并重新定义了未来产品团队的形态。 在OpenAI,超过90%的员工(不仅仅是工程师)每周都在使用Codex,这款应用的用户量自今年一月以来增长了六倍。作为这款颠覆性产品的负责人,Andrew Ambrosino拥有从设计师到工程师再到产品经理的独特跨界背景。他观察到,产品开发的流程正在彻底“倒置”:过去,团队需要通过大量文档和研究来规避昂贵的开发风险;而现在,任何人都能轻易构建原型,真正的挑战从“如何实现”转变为“应该实现什么”。本期节目,他将分享OpenAI内部如何从90个并行探索的原型中进行筛选与策展,以及这种“角色崩溃”现象如何重塑团队的协作模式。 您将了解到: * AI让技术实现变得廉价,为什么“品味”反而成了产品团队最昂贵的资产? * 随着AI模糊设计师、工程师和产品经理的界限,未来的产品团队将如何重组?“角色崩溃”真的意味着专家已死吗? * 在模型能力日新月异的时代,OpenAI如何规划产品路线图,他们为何要提前构建那些“当下还无法完美运行”的功能? 💡时点内容 | Key Topics * [04:44] 产品流程的颠覆:Andrew Ambrosino指出,AI正颠覆传统产品开发流程。他认为,过去技术实现成本高昂,需要通过文档和原型来规避风险,但现在“技术实现本身已经不再是成本最高的部分了”。他强调,如今真正昂贵的是“品味”,即在众多可能性中进行筛选和策展的能力。 * [14:33] “好品味”的真正内涵:Andrew Ambrosino深入探讨了AI时代“品味”的重要性,并指出人们往往过分强调其审美层面。他认为,品味是系统性思考、宏大背景和细节决策的结合,远不止于视觉。他将品味的核心问题定义为:“我们应该做什么?如果我们什么都能做,那我们的目标究竟是什么?” * [15:06] AI的设计瓶颈:Andrew Ambrosino分析了顶尖AI模型在设计领域表现不佳的原因。他指出,为“品味”这种人性化特质创建反馈循环比评估代码正确性要困难得多。此外,他认为设计中的“新颖性”比软件工程中的模式复用更重要,而AI目前难以把握文化属性和代码的深层抽象结构。 * [25:16] 角色崩溃与重心转移:Andrew Ambrosino分享了OpenAI内部,尤其是在Codex团队中,正经历着明显的“角色崩溃”现象。他将团队成员的角色比作工作的“平均重心”,而非固定的职能划分。他透露,团队合作不再有明确的边界,“大家不再用那种条条框框来定义自己,比如说设计到哪里为止、工程从哪里开始。” * [35:33] AI时代的产品规划:Andrew Ambrosino透露,在AI快速迭代的背景下,传统的产品路线图规划已经失效。他分享了一种新策略:提前构建出未来可能实现的功能原型,然后让它们“慢慢‘酝酿’”。他强调,功能的成败完全取决于模型智能水平,并举例称:“同一个产品,形态完全一样,它的结果却因为几个月的时间差而截然不同。” * [49:38] 自我工作流自动化:Andrew Ambrosino分享了他如何使用Codex自动化自己的日常工作。他透露,他设置了一个自动化任务,每天早上为他生成一份简报,从三千多个Slack频道中筛选出关键信息。他指出,他可以通过自然语言直接与任务交互进行优化,例如告诉它:“下次能确保这类信息被收录吗?” 📺相关链接与资源: [视频来源]《OpenAI Codex lead on the new shape of product work | Andrew Ambrosino》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP123:Anthropic Workshop-构建可长时运行的智能体AI智能体运行几分钟就“失忆”或“焦虑”?Anthropic的工程师将揭示如何构建能连续工作数小时甚至数天的持久性智能体。来自Anthropic应用AI团队的Ash Prabaker和Andrew Wilson,将深入剖析克服上下文、规划和自我评估三大障碍的核心技术,分享从模型权重到支撑框架(Harness)协同进化的实战心法。 一年前,Claude Code还在艰难地编写Bash命令,最多只能运行20分钟;一年后,它已能连续运行数天,甚至用自己编写代码。这段惊人的进化历程背后,是Anthropic坚持的“模型与框架协同进化”策略。本期节目中,嘉宾将详细拆解这一历程,从Claude 3.5 Sonnet能“看见”自己代码的“啊哈时刻”,到如今通过Agent SDK和精巧的“Harness”设计,让智能体不仅能完成任务,更能准确地评判自身工作,摆脱“半成品”陷阱。 您将了解到: * 为什么大多数AI智能体运行20分钟就会“失忆”或“焦虑”,Anthropic如何克服上下文、规划和自我评估这三大核心障碍? * 如何借鉴“生成对抗网络”(GANs)的理念,设计出一个“生成器”和一个“评估器”AI,让它们像人类团队一样通过对抗和协商来构建高质量应用? * 从紫色渐变到具备“设计品味”,Anthropic如何通过量化主观标准,训练AI智能体摆脱千篇一律的“AI通货”审美? 💡时点内容 | Key Topics * [01:39] 长时智能体的三大挑战:Andrew Wilson归纳了构建长时运行AI智能体的三大核心挑战:有限的上下文窗口、模型较弱的规划能力,以及模型不擅长评判自身输出的倾向。他特别指出,模型可能会“阿谀奉承”,错误地认为半成品功能已经完成,这为后续的验证环节带来了困难。 * [05:09] 模型与框架的协同进化:Andrew Wilson阐述了提升智能体性能的两条路径:一是直接提升模型权重,二是优化围绕模型的支撑框架(Harness)。他回顾了从Claude.ai的“Artifacts”功能到Agent SDK的发布历程,并强调“每当我们发布一个新模型,总会伴随着一系列对Harness的重大更新”,两者实际上在共同进化。 * [11:20] “框架循环”构建范式:Andrew Wilson详细介绍了一套长时运行智能体的构建流程,该流程始于一个“初始化智能体”将模糊指令分解为持久化的功能列表和进度文件。他解释道,系统随后会进入一个“框架循环”,在全新的上下文窗口中逐一实现并测试功能,通过这种方式“把之前提到的所有概念层层叠加了起来”。 * [17:17] 生成对抗网络式框架:Ash Prabaker介绍了一种借鉴生成对抗网络(GANs)理念的协同框架,其中包含一个“生成器”模型负责构建,以及一个独立的“评估器”模型负责评判。他强调,将构建者和批评家角色分离是关键,因为“要把一个独立的‘批评家’调教得非常严苛,这在技术上是完全可行的”。 * [23:03] 构建前的“契约”协商:Ash Prabaker揭示了连接“生成器”和“评估器”的关键机制:在编写代码前,两个智能体通过协商共同定义“完成”的标准,形成一份“契约”。他认为,这种机制成功地“架起了一座桥梁,把‘用户故事’这种比较抽象的需求规格,转化成了更具体、可测试的断言”。 * [37:38] 长时智能体五大心法:Ash Prabaker最后总结了构建长时运行智能体的五点核心建议,包括使用对抗性评估器而非自我评估、利用结构化交接保证连贯性、量化主观质量标准等。他最终强调,成功的关键在于“真正地和模型待在一起,去阅读它生成的轨迹记录”,以便了解哪些脚手架需要调整。 📺相关链接与资源 [视频来源]《Anthropic Workshop: Build Agents That Run for Hours — Ash Prabaker & Andrew Wilson》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP122:Anthropic重磅更新Claude Tag - 当AI从“个人工具”变成“组织成员”Anthropic 近日发布了全新的企业协作工具 Claude Tag,这标志着其 AI 产品从个人助手向“独立、持续运行的团队成员”发生的重大转变。作为 Claude Code 的进化版本,Claude Tag 不再仅仅是被动响应指令的聊天机器人,而是深度嵌入 Slack 等企业工作流,能够主动参与团队协作、管理长期任务并积累组织知识。 目前,Anthropic 内部约 65% 的产品代码已由 Claude Tag 参与完成。前特斯拉 AI 主管安德烈·卡帕西(Andrej Karpathy)将其评价为“LLM 用户界面的第三次重大变革”。该工具目前已面向 Claude Enterprise 和 Team 用户开启 Beta 测试,并计划在未来几周内扩展到更多协作平台。 1. 产品定位:从助手到“AI 同事” Claude Tag 的核心逻辑在于将 AI 从私密的、个人化的对话框中解放出来,转变为整个团队共享的系统。 * 协作范式的转变: 与传统 AI 助手服务于个人不同,Claude Tag 在团队频道内运行。所有成员均可实时观察其分析、决策及执行过程,确保协作上下文的透明与统一。 * 交互进化的阶段: 1. 第一阶段: 网页版聊天(Web Chat)。 2. 第二阶段: 桌面应用(Desktop App)。 3. 第三阶段: 独立且持续运行的系统,拥有组织工具权限和上下文。 2. 四大核心能力解析 Anthropic 官方强调了 Claude Tag 区别于普通 Agent 的四个关键能力: 3. 工作流深度整合与应用场景 Claude Tag 不仅仅是“会说话”,它更像是企业内部系统的统一入口。 * 跨平台调用: 能够调动 GitHub、Jira、Linear、数据库及 CRM 等系统。 * 开发任务转化: 配合 Claude Code,可将 Slack 中的口头需求直接转化为实际的工程任务,并将结果同步回频道。 * 典型应用: * 处理拉取请求(PR)的提交或合并。 * 执行复杂的数据分析。 * 整理会议纪要并拆解为具体行动方案。 * 定时提醒负责人并汇总每周进展。 4. 部署方式、安全性与权限控制 针对企业用户对隐私和管理的需求,Claude Tag 设计了严格的管控机制: * 身份隔离机制: 管理员可配置不同的“Claude 身份”。例如,销售团队的 Claude 无法访问工程团队的数据,确保权限与记忆被严格限制在各自范畴内。 * 透明化管理: 管理员可以设置组织级或频道级的 Token 预算,并能查看所有操作记录及任务发起人。 * 部署平台: 首发于 Slack。未来 30 天内将逐步取代现有的 Slack 版 Claude 应用。 5. 行业竞争背景与战略意图 Claude Tag 的推出反映了企业 AI 竞争的新方向:争夺“组织知识”的解释权。 * 统一入口策略: 员工未来可能不再需要记忆几十个软件入口,而是通过 @Claude 一个名字完成所有操作。 * 市场对标: * 微软: Graph 与 Copilot。 * Snowflake/Databricks: 企业知识底座。 * Glean: 连接模型与企业数据的智能层。 6. 用户反馈与争议 尽管技术性能备受期待,但市场反馈呈现出两极分化的态势: * 期待派: 对 Claude 强大的模型能力(目前仅配合 Opus 4.8 使用)及其在真实工作流中的表现抱有高度期待。 * 怀旧/不满派: 在 Reddit 和推特等社区,大量用户对“Fable”版本的下线或缺失表示强烈不满,要求 Anthropic 重新提供 Fable 5 的消息,甚至认为功能更新不应以牺牲特定模型版本为代价。 提示: Claude Tag 现已向企业级用户开放测试,建议管理员在配置权限时充分考虑“Claude 身份”的隔离需求。
EP121:编程问题解决之后会发生什么?对谈Claude Code和Cowork负责人Fiona Fung当工程师的代码产出量暴增8倍,“编码已解决”不再是口号而是现实,软件开发的真正瓶颈已经转移。本期节目,我们邀请到 Anthropic 的工程领导者 Fiona Fung,她将分享在 AI 彻底重塑开发范式的今天,未来的“10倍工程师”和顶尖团队应如何进化,抓住机遇。 Fiona Fung 的职业生涯堪称一部软件工程的进化史,从 IBM 的终端编程到微软 Visual Studio,再到从零打造年 GMV 超千亿美金的 Facebook Marketplace。如今,作为 Anthropic 核心产品 Claude Code 和 Cowork 的负责人,她亲眼见证了 AI 如何将工程师的季度代码产出提升8倍,彻底颠覆了传统的开发模式。Fiona 深入探讨了当编码不再是瓶颈后,团队的重心如何从“交付”转向“影响”,高自主性为何必须与高责任感并行,以及管理者如何利用 AI 智能体,将规划周期从半年压缩至一个月,真正实现“即时规划”。 您将了解到: * 当工程师的代码产出量暴增8倍,编码不再是瓶颈时,真正的挑战转移到了哪里?顶尖团队又是如何应对的? * 在AI重塑软件工程的浪潮中,工程师为何会感到“孤独”?未来的“10倍工程师”需要具备哪些超越编码的核心特质? * AI时代,工程团队的规划周期为何从半年缩短到一个月?管理者如何利用AI智能体,将工作重心从“交付”转向“影响”? * AI正在拉大社会差距,我们如何帮助身边的人和中小企业跨越数字鸿沟,不错过这次技术变革? 💡时点内容 | Key Topics * [01:37] AI时代的雄心与人才:Fiona Fung分享了她的人才观,指出团队需要“具备产品思维的创造性建设者”和“能解决硬核问题的资深系统专家”。她强调,AI彻底提升了每个人的能力天花板,因此核心问题已变为“你的雄心能有多大?”,因为理论上一切都变得可能了。 * [02:09] 自主与异步的未来:Fiona Fung预测,未来的工作模式将更趋向异步,通过“程序”(routines)来自动化调用AI智能体集群。她强调,团队文化推崇“高自主性也意味着高责任感”,并认为那些做得最好的人,往往是“最具主动性、最积极、最有自主权的人”。 * [02:42] 新世界的孤独与文化:Fiona Fung透露,随着工程师更多地与AI协作,团队中出现了“孤独的体验”,为此他们发起了“结对编程午餐会”以加强人际互动。她认为,自己夜不能寐的最大担忧是如何在高速增长中维系团队文化,因为“文化其实像一个有生命、会呼吸的有机体”。 * [08:09] 工程师的进化之路:Fiona Fung回顾了她从IBM的终端编程到微软Visual Studio的职业转变,分享了初次接触IDE时的震撼。她指出,从CD发布到线上发布软件也是一次巨大转变,这改变了工程师的规划模式,因为“编码本身就不再是那个瓶颈了”。 * [11:25] AI驱动的管理新范式:Fiona Fung透露,她利用Claude全面掌握团队的代码交付,将管理对话从“交付动作”提升到“市场影响”。她还介绍了名为“Routines”的自动化功能,该功能能监控反馈渠道、总结主题并自动生成修复问题的PR,她认为这“彻底改变了我的工作方式”。 * [22:55] 拥抱变革与克服恐惧:Fiona Fung认为,在AI变革中,拥有“成长心态”至关重要,并建议通过主动融入来克服恐惧。她分享了自己为支付学费而去当银行柜员的经历,并强调要问自己“哪些事情是在我掌控之内的?”,将失控感转化为可控的行动。 * [44:04] 速度与质量的再平衡:Fiona Fung指出,在代码产出量激增8倍的背景下,团队必须主动管理质量,并建立区分“糟糕”和“难过”体验的框架。她建议领导者进行“倾听之旅”,关注最终成果而非代码行数等生产力指标,并强调“不要把行动本身误认为是进步”。 * [1:30:03] 即时规划与精简流程:Fiona Fung分享了团队从半年规划转向“即时规划”(Just-in-Time)的经验,现在以月为单位进行轻量级规划。她建议团队要持续反思现有流程,并明确授权团队“去砍掉那些已经不再为我们服务的流程”,以适应快速变化的环境。 📺相关链接与资源 [视频来源]《The woman behind Claude Code and Cowork on why coding is solved (and comes next) | Fiona Fung》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP120:对话Intel CEO陈立武-引领英特尔的复兴之路半导体界的传奇投资人Lip-Bu Tan,如今正肩负起英特尔CEO这一“行业最难的工作”。他将首次系统阐述其独特的“先爬,再走,后跑”复兴蓝图,并揭示如何将风险投资家的“十倍回报”逻辑注入这家科技巨头,在AI时代重塑格局。 66岁接手英特尔,Lip-Bu Tan坦言这是“行业里最难的活”。上任之初,他甚至险些被特朗普总统要求辞职,但他凭借真诚沟通化解危机,只为“纯粹地拯救英特尔”。在这14个月里,他大刀阔斧地改革文化,让所有工程师直接向他汇报,并联合美国政府与黄仁勋等“盟友”巩固资产负债表。他坚信,只有简化产品、倾听客户,才能为这家标志性公司找到重回巅峰的道路。 您将了解到: * 英特尔CEO将如何运用他“先爬,再走,后跑”的三步战略,来复兴这家半导体巨头? * 当摩尔定律逼近物理极限,这位传奇投资人看好哪些新材料和先进封装技术来开启半导体的下一个十年? * Lip-Bu Tan将如何把风险投资的“十倍回报”逻辑,应用到英特尔这样体量的公司,并抓住AI时代的巨大机遇? 💡时点内容 | Key Topics * [01:25] 拯救标志性公司:Lip-Bu Tan分享了他接手英特尔CEO这一“行业里最难干的活儿”的原因,指出这家标志性公司对半导体生态系统和美国至关重要。他还回顾了上任初期与特朗普总统的意外冲突,并强调他这么做“纯粹是为了拯救英特尔”,最终通过沟通赢得了继续工作的机会。 * [04:22] “先爬,再走,后跑”的复兴蓝图:Lip-Bu Tan阐述了他改造英特尔的“先爬,再走,后跑”三步走战略,强调首先要巩固资产负债表,并获得了美国政府及黄仁勋等人的支持。他指出,核心在于“专注于产品,并且真正地去简化产品线,听取客户的意见”,从而推动下一代产品的诞生。 * [07:20] 携手马斯克重塑制造:Lip-Bu Tan透露了与埃隆·马斯克合作“TerraFab”项目的初衷,指出双方都认为半导体基础设施发展已跟不上人工智能的增速。他将马斯克称为“非传统”的合作伙伴,并强调这种合作能让双方学到很多东西,共同寻找“最佳的路径”来加速晶圆厂的投产。 * [16:13] 摩尔定律的未来路径:Lip-Bu Tan预测,尽管成本和难度日益增加,但半导体工艺仍能继续微缩,并已规划至0.7纳米。他强调,当摩尔定律潜力见顶时,出路在于新材料和先进封装,并透露他已投资氮化镓、玻璃基板及人造金刚石等下一代技术,认为“你总会遇到一堵墙,然后你就得想办法”。 * [22:08] 投资者的瓶颈思维:Lip-Bu Tan分享了他作为资深投资人的核心方法论,即始终从“瓶颈到底在哪里?”出发。他以投资互联技术、光子技术和电源管理公司为例,指出要解决客户“叫苦连天”的真实问题。他认为,识别并投资于解决行业瓶颈的初创公司,是创造价值的关键。 * [31:00] 全栈方案定胜负:Lip-Bu Tan预测,十年后的赢家将是那些能提供“全栈解决方案”的公司,并以英伟达专注CUDA平台为例。他认为,英特尔凭借其XPU、先进封装和晶圆厂的整合能力,有机会为不同工作负载打造专用芯片,从而在智能体AI和物理AI的新赛道中占据一席之地,强调“这场游戏其实还没有结束”。 * [40:52] 风险投资家的十倍目标:Lip-Bu Tan坦言,投资者可能尚未完全理解英特尔在AI时代的巨大潜力,并透露他正将公司转型为一家AI驱动的企业。他将自己骨子里的“风险投资家”精神带入英特尔,设定了未来五到十年实现十倍增长的目标,并表示“尽管我们在14个月里为股东带来了六倍的回报,但这仅仅是个开始”。 📺相关链接与资源 [视频来源]《Re-engineering the Semiconductor Supply Chain with Intel CEO Lip Bu Tan》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP119:深入解读黑客马拉松Built with Opus 4.7 Claude Code获胜项目本简报《Meet the winners of the Built with Opus 4.7 Claude Code hackathon》汇总了“Built with Opus 4.7 Claude Code”虚拟黑客松的的核心成果与技术洞察。此次竞赛展示了开发者如何利用 Claude Opus 4.7、Claude Code 及 Claude Managed Agents 等工具,在医疗培训、电子维修、计算机科学教育、交互式娱乐、家庭修缮及工厂维护等多元领域构建复杂的端到端解决方案。 核心结论表明,AI 已从单纯的代码生成工具演变为深度的“思考伙伴”。获胜项目共同体现了“规格优先”(Spec-first)的开发哲学,证明了即使是非专业编程背景的领域专家,也能在极短的时间内(通常为 5 天内)将复杂的行业洞察转化为功能完整的全栈产品。Claude 在视觉图表理解、空间推理及多代理协作方面的进步,是这些创新应用得以实现的关键技术基石。 核心主题与深度洞察 根据对获奖项目的分析,本次黑客松呈现出以下四个核心技术与开发趋势: 1. 从代码生成器向“思考伙伴”的范式转变 开发者不再仅仅将 AI 视为自动补全工具,而是将其作为架构设计和决策支持的合作伙伴。 * 协作模式: 开发者负责方向导航、架构审查和关键决策,而 Claude 处理技术执行和细分任务的规划。 * 推回机制: 获胜者建议 builder 应学会“挑战”模型。例如,当模型认为某些功能无法在限时内完成时,开发者通过坚持尝试("Push back")往往能取得突破。 2. “先思考,后构建”的开发哲学 多个获奖项目(如 Maieutic 和 MaestrIA)强调了在编写代码前进行深度规格说明(Spec)的重要性。 * 文档驱动: 投入大量时间编写设计规格和技术规范(有时长达两天),虽然初期看似进展缓慢,但能极大地加速后期的执行效率。 * 评估驱动: 建立可审计的多维度评估系统(Evals)先于功能开发,是确保 AI 生成内容准确性的关键。 3. 专业知识的“民主化”封装 AI 正在缩小领域专家与软件工程之间的鸿沟。 * 领域知识注入: 通过 JSON 等结构化文件注入特定的行业规则、地方方言或专家经验(如 MaestrIA 注入的智利传统木工知识),能显著提升模型在特定场景下的判断准确度。 * 无代码背景崛起: 即使没有编程经验的领域专家(如 20 岁的智利学生或资深维修技师),也能在 Claude Code 的辅助下担任“现场领班”,监督复杂的开发流程。 4. 代理架构与基础设施的简化 Claude Managed Agents 的引入极大地降低了构建复杂 AI 系统的门槛。 * 开发提速: 开发者可以利用 Anthropic 托管的沙盒环境、安全执行和会话持久化功能,将原本需要数周构建的基础设施工作缩短至数天,从而专注于产品逻辑本身。 开发者关键建议与引言 1. 开发策略 * Bedirhan Keskin (Medkit): “将 Claude 视为思考伙伴,而不仅仅是编码代理。它能帮你看到那些你可能会忽略的选择。” * Paula Vásquez-Henríquez (Maieutic): “在构建之前先思考。项目中表现出的哲学也应应用在构建过程本身:拒绝在没有详细规范的情况下直接进入代码阶段。” 2. 技术执行 * Alexis Chapellier (Wrench Board): 建议在调试时采用“多代理模式”,运行 5 到 6 个并行代理,每个代理专注于特定的领域(如设计、原理图解析、诊断)。 * Benjamin Torralbo (MaestrIA): “评估优先,功能随后。评估系统而非直觉,才是判断项目是否奏效的唯一标准。” * Idriss Benguezzou (ARIA): 强调闭环审计的重要性,“让 Claude 审计你已经构建的东西,看是否存在问题,这种循环被严重低估了。” 3. 项目管理 * Rene Hangstrup Møller (Virtual Puppet Theater): 提醒黑客松参与者必须预留充足的时间制作演示视频,“制作一个 3 分钟的视频所需的时间远超你的想象。” * Adam Hnaien (ARIA): 强调规划阶段的价值,“一天的深度规划让我们能在剩下的一周里全速执行,而不是边做边即兴创作。” 结论 本次黑客松证明了 Claude Opus 4.7 和 Claude Code 的组合不仅提升了专业开发者的生产力,更赋予了领域专家直接将行业痛点转化为技术解决方案的能力。项目的成功往往取决于开发者对行业问题的深刻理解以及在开发初期投入的架构规划时间,而非单纯的代码编写速度。 📺播客说明 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP118:13 分钟将 Codex 变成你的 AI 私人顾问想过让AI成为你的人生教练吗?它不仅能帮你处理工作,更能深度参与你的人生重大决策。本期节目,嘉宾Peter Yang将用一个13分钟的5步教程,向你展示如何利用Codex和几个简单的文本文件,打造一个真正懂你的私人AI顾问——这正是帮助他做出辞职创业这一重大决定的秘密武器。 在决定离开稳定工作、放手一搏之前,Peter Yang并没有求助于传统的导师,而是与他亲手构建的AI顾问进行了长达三个月的深度对话。这个AI并非简单的问答机器人,它被“喂养”了Peter的人生目标、核心原则、精力来源甚至财务状况。因此,它能给出“你的决定本质上是心理问题,关键在于放下你花了十年才成为的自己”这样直击灵魂的建议。在本期节目中,Peter将毫无保留地分享这套系统的搭建方法,揭示如何通过四个核心文件,让AI成为你最值得信赖的、不断进化的决策伙伴。 您将了解到: * 如何仅用四个文本文件,就将AI打造成一个深度了解你个人目标的专属人生教练? * 为什么说定义AI的“精力过滤器”和“学习日志”,是让它提供超精准建议的关键? * 一个精心设计的AI顾问,如何帮助你在职业和人生的十字路口,做出不再后悔的重大决策? 💡时点内容 | Key Topics * [01:33] AI驱动的人生决策:Peter Yang分享了他在做出辞职这一重大决定前,如何连续三个月与自己构建的AI顾问交流的经历。他透露这个AI顾问给了他深刻的洞察,例如指出“你的决定本质上是一个心理问题,关键在于要放下那个你花了十年时间才成为的自己”,这对他最终的选择起到了关键作用。 * [02:02] 定义AI顾问角色:Peter Yang详细讲解skill.md文件的作用,指出这个文件是用来定义AI顾问行为的蓝图,而非存储个人信息。他强调,文件的重点是“告诉AI它要扮演什么角色,需要阅读哪些背景信息,如何为你提供建议”,并透露他是通过与AI协作迭代才最终打磨出这个文件的。 * [04:51] 个人计划核心蓝图:Peter Yang讲plan.md是整个顾问系统最重要的文件,因为它包含了个人工作和生活的关键背景。他分享了文件应包含的核心要素,如一个清晰可衡量的年度目标、三条核心原则,以及一份详细的精力管理清单,并指出这些原则能帮助顾问“在我偏离核心工作时,及时提醒我。” * [08:00] AI的动态学习日志:Peter Yang将learnings.md文件比作一个动态的变更日志,它记录了AI通过持续对话积累的关于他的新认知。他解释道,这个文件让AI能够不断学习和成长,并分享了AI从中提炼出的洞察,例如“你从‘构建’中获得能量,而不仅仅是‘提建议’”,从而使建议越来越精准。 * [08:29] 建议质量检查清单:Peter Yang分享eval.md文件的设计理念,将其描述为一个“是或否”的检查清单,用于强制AI在给出建议前进行自我评估。他强调,这个清单确保了建议是基于最新背景信息、引用了个人目标,并提供了“两到三个具体的下一步行动”,从而避免了空洞笼统的建议。 * [11:34] 顶尖模型的洞察力:Peter Yang回顾了使用Anthropic的Fable模型时获得的惊人体验,并强调“用上最好的模型,给出的建议在细节和实用性上,确实是天差地别”。他透露,Fable能结合他的个人背景和外部研究,发现其他模型找不到的深刻洞见,例如指出“提高续订率才是增加付费用户的关键瓶颈”。 📺相关链接与资源 [视频来源]《How I Turned Codex Into My AI Life Coach in 13 Minutes (5-Step Tutorial)》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP117:如何利用 AI 成为极具威胁性的自学阅读高手你是否也曾读完一本书就忘,感觉知识无法转化为真正的优势?在本期节目中,曾担任多家十亿级科技公司CEO和投资人的Sandeep Swadia将彻底颠覆你的阅读认知,他认为顶尖的1%精英并非读得更多,而是读得更“危险”,通过一套独特的系统将阅读转化为改变思维、决策和沟通的武器。 Sandeep Swadia指出,我们普遍被三种关于学习的迷思所困:错误的学习风格认知、误以为理解的“流畅性错觉”,以及认为AI可以替代深度阅读的陷阱。他警告说,依赖荧光笔、摘要笔记甚至AI总结,只会让我们成为被动的知识消费者,而非主动的思考者。为了打破这一困境,他独创了ACTOR框架,一个包含目标(Aim)、压缩(Compress)、测试(Test)、执行(Run)等五个步骤的系统,旨在帮助我们像“间谍”一样带着明确使命去阅读,将AI从捷径变为强大的“陪练伙伴”,最终将书本知识内化为无法被复制的个人竞争优势。 您将了解到: * 为什么顶尖的1%阅读者都像“间谍”一样读书,而普通人只是“观光客”? * 在AI能总结一切的时代,如何通过阅读构建无法被AI复制的核心优势? * 如何运用ACTOR框架,将每一本书都转化为改变你思维和行动的武器? 💡时点内容 | Key Topics * [01:24] 流畅性错觉与阅读陷阱:Sandeep Swadia揭示了大脑如何通过“流畅性错觉”欺骗我们,让我们误以为清晰的解释等同于深刻的理解。他进一步指出了由此产生的三个阅读陷阱,包括“荧光笔陷阱”和“摘要陷阱”,并强调这些行为让我们“错把标记当成了记忆”,无法带来真正的改变。 * [04:14] 间谍式阅读的目标设定:Sandeep Swadia分享了ACTOR框架的第一步“目标”(Aim),他将顶尖阅读者比作“一个间谍”而非“观光客”。他以《汉密尔顿》创作者的经历为例,说明带着使命感阅读能将消费转变为构建,并建议在阅读前写下“我读这本书,是因为我需要…”来明确自己的目的。 * [07:03] 知识树的压缩法则:Sandeep Swadia介绍了框架的第二步“压缩”(Compress),他将知识比作埃隆·马斯克的“知识树”。他强调,读者必须先找到核心思想的“树干”,而不是迷失在细节的“树叶”中,并建议使用AI作为“解读者”来检验和深化自己对核心观点的理解,避免只收集零散信息。 * [09:53] 拥抱异议的测试心态:Sandeep Swadia提出了框架的第三步“测试”(Test),他认为最优秀的读者读书是为了“发现那些他们想要……反驳的观点”。他以比尔·盖茨的习惯为例,鼓励读者在遇到不认同的观点时投入更多精力去钻研,并建议将AI用作“陪练伙伴”来挑战自己的解读和隐藏假设。 * [12:43] 从思考到行动的转化:Sandeep Swadia讲解了框架的最后一步“执行”(Run),他引用麻省理工的校训“手脑并用”强调行动的重要性。他认为,阅读的最终目的是带来改变,例如“一本理财书,应该改变你的一个决定”,并建议利用AI作为行动伙伴,将书本概念转化为具体的决策、清单或实验。 * [15:33] 阅读的深层价值:Sandeep Swadia总结道,在AI时代,真正的优势在于人类的判断力、品味和观点。他提出了一个更深层的观点,认为好书最终会反过来“读”你,帮助揭示你内心的故事和假设,并断言“当你读得越深,你就越懂得如何去‘读’人”,因此严肃的领导者都是严肃的阅读者。 📺相关链接与资源: [视频来源]《How To Become Dangerously Self-Educated (with AI)》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP116:被SpaceX收购前的Cursor是如何疯狂崛起的本文章《Inside Cursor's wild rise》旨在分析 AI 编程初创公司 Cursor(原 Anysphere)的崛起历程、核心领导力特质、面临的竞争威胁以及与埃隆·马斯克(Elon Musk)旗下的 SpaceX 达成的里程碑式合作。 Cursor 在首席执行官 Michael Truell 的领导下,已从一家由 MIT 毕业生创办的初创公司迅速成长为年营收达 40 亿美元、拥有 700 名员工的行业巨头。面对其主要 AI 供应商 Anthropic 推出的竞争产品 Claude Code 所带来的生存威胁,Cursor 采取了激进的战略转向:开发自有模型“Composer”,并与 SpaceX 达成了一项潜在价值 600 亿美元的收购协议。这一合作不仅为 Cursor 提供了急需的算力资源(如 Colossus 超级计算机),也标志着其从依赖第三方模型向建立独立技术生态系统的重大跨越。 1. 创始人背景与领导风格 首席执行官 Michael Truell 是 Cursor 的核心灵魂人物,其个人特质深刻影响了公司的发展路径。 * 技术神童出身: Truell 15 岁时便开发了知名的编程游戏 Halite,吸引了数千名用户并获得 10,000 美元奖金。在 MIT 期间,他以远超常人的速度完成编程测试,展现出卓越的技术天赋。 * 低调但极具雄心: 尽管 Truell 个人生活节俭(创业初期数年不领薪水)且性格内敛,但他对 Cursor 的愿景极为宏大,致力于将其打造为一家“代际公司(Generational Company)”。 * 极致的招聘文化: Cursor 采用极高标准的招聘流程,包括为期数周、有时甚至是无偿的“工作试用(Work Trials)”。候选人需深入参与实际业务以证明其原始技术能力。虽然这种方式被部分人批评为“剥削”,但它确保了公司团队的高技术密度。 2. 企业的爆发式增长历程 Cursor 经历了硅谷历史上罕见的增长轨迹,其财务表现与市场渗透率呈现指数级增长。 3. 与 Anthropic 的共生与裂痕 Cursor 的崛起曾高度依赖 Anthropic 的 AI 模型,但这种关系在 2026 年初发生了剧变。 * 高度互补的初期关系: 早期 Cursor 贡献了 Anthropic 约 40% 到 50% 的收入。双方曾处于一种“互相需要”的微妙平衡中。 * 生存威胁: 2026 年 2 月,Anthropic 推出了竞争产品 Claude Code。其年化收入迅速达到 25 亿美元,超过了当时 Cursor 的水平,导致大量用户流失。 * 紧急转型: 2026 年 1 月 5 日,Truell 召开紧急全员会议,宣布必须摆脱对外部前沿实验室的依赖,转而开发自有模型,以获取定价权和技术自主权。 4. 技术演进:从封装器到自有模型 为了应对竞争,Cursor 成功实现了从“模型封装”向“模型研发”的转型。 * Composer 系列模型: Cursor 推出了自主研发的编程模型套件 Composer。该模型最初基于中国 AI 实验室“月之暗面(Moonshot)”的开源模型构建。 * 技术独立性: 到 2026 年 5 月发布的 Composer 2.5 版本,其自主研发比例已超过 85%,显著降低了算力成本并提升了处理速度。 * 社会影响力: 这种工具的普及降低了编程门槛,使非软件工程背景的初创企业创始人也能快速开发产品。 5. SpaceX 战略协议与未来展望 面对昂贵的算力成本,Cursor 选择与埃隆·马斯克旗下的 SpaceX 结盟,这一决策彻底改变了公司的命运。 5.1 交易核心条款 * 收购意向: SpaceX 计划以 600 亿美元收购 Cursor。 * 保护性条款: 若交易未能完成,SpaceX 将支付 15 亿美元的终止费,并提供价值 85 亿美元的免费算力支持。 * 算力支持: Cursor 获得 SpaceX Colossus 超级计算机的使用权,该计算机配备了数十万块顶级 Nvidia AI 芯片。 5.2 战略协同效应 * 对 SpaceX/xAI 的意义: 马斯克的聊天机器人 Grok 通过在 Cursor 的大量数据上进行训练,显著提升了其编程能力。 * 对 Cursor 的意义: 获得了在 AI 竞赛中生存所需的巨量计算资源,使其能够大规模扩展 Composer 模型。 5.3 结论 目前,Cursor 尽管面临收购后的整合风险与独立性争议,但其强劲的财务表现(40 亿美元营收)和在财富 500 强中的高渗透率,使其成为了计算机历史上前所未有的初创企业案例。Michael Truell 的“博弈”已将公司推向了全球 AI 编程竞争的中心。 **📺播客说明** 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP115:多重兴趣者的超级权力-打造你的“一人企业”蓝图你是否曾因兴趣广泛而被贴上“不专注”的标签,甚至将其视为成功的阻碍?本期节目,一人企业(One-Person Business)专家 Dan Koe 将彻底颠覆这一认知,揭示如何将这种“善变”的特质,转化为你在 AI 时代最强大的个人杠杆与商业超能力。 Dan Koe 曾是一个典型的“痴迷型学习者”,从健身、灵修到数字艺术、心理学,他的兴趣清单不断刷新。在传统观念里,这似乎是缺乏定力的表现,但 Dan 认为,这恰恰是高主观能动性和独特视角的体现。他犀利地指出,工业时代的“专才”思维已经过时,当今世界的真正杠杆是“代码”与“媒体”。在本期节目中,他将分享普通人如何利用自己天然的好奇心与学习力,将零散的知识转化为系统性的内容和产品,一步步构建起属于自己的一人企业,实现有意义的盈利。 您将了解到: * 兴趣广泛如何从“弱点”变成你最强的“超能力”,并构建一份属于自己的事业? * 个人品牌、内容、产品三者之间存在怎样的关系?如何设计一个能让用户心甘情愿付费的转化系统? * 在AI时代,非技术背景的创作者如何利用“代码”和“媒体”这两大杠杆,打造出能在睡后持续为你赚钱的产品? * 如果你感觉自己还不是“专家”,应该如何定位自己并开始分享内容,最终建立起个人权威? 💡时点内容 | Key Topics * [01:30] 兴趣广泛的超能力:Dan Koe分享了他对健身、艺术、心理学等多个领域都曾深度痴迷的经历,并指出社会普遍将“兴趣广泛”视为弱点,但他认为这其实是一种超能力,因为它代表了“极强的主观能动性”和独特的视角,是构建现代事业的基础。 * [04:48] 代码与媒体的新杠杆:Dan Koe引用纳瓦尔的观点,强调在当今时代,代码和媒体是个人可以利用的强大杠杆。他指出,现代媒体即是内容,可以通过持续创作来建立流量,并认为“一个小小的行动,可以产生不成比例的巨大影响”,让普通人也能触达大量人群。 * [08:06] AI赋能与去中心化教育:Dan Koe指出AI的出现极大地降低了技术门槛,让过去需要团队完成的工作现在单人即可搞定。他将创作者经济的精华比作一个“去中心化的教育体系”,认为充满热情的个体通过深入钻研兴趣并分享给他人,正在成为主流的教育来源。 * [19:06] 作为转化的个人品牌:Dan Koe将个人品牌的核心定义为“转化”,即通过内容和产品帮助他人改变生活。他指出,品牌并非完美的个人简介或口号,而是通过改变他人的想法和行动,在人们脑海中形成的无形印象,并提供了三个核心问题来指导品牌定位。 * [22:24] 内容创作的A-B地图:Dan Koe将内容比作一张从A点(受众现状)到B点(目标转变)的地图。他分享了一个具体的内容规划方法:先设定内容支柱,再向下拆分子主题,最后将所有创意都通过“如何帮助人们从A点走到B点”的视角进行重新诠释和包装。 * [28:59] 作为工具的产品设计:Dan Koe将产品定义为实现转变的“工具”或“系统”,用以帮助用户在内容地图上从A点走到B点。他回顾了自己从服务到产品的演变,并强调人们付费购买的并非零散信息,而是一套完整的、用于实践的系统,无论是信息产品还是软件。 📺相关链接与资源 [视频来源]《If You Have Multiple Interests, Start A One-Person Business》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP114:Elon Musk IPO致辞-SpaceX的星际愿景是让科幻成为现实如果一家公司的创始人告诉你,它成功的概率连10%都不到,你还会相信它的未来吗?本期节目,我们邀请到了埃隆·马斯克(Elon Musk),他将亲自分享SpaceX如何从一个濒临失败的初创公司,成长为致力于将《星际迷航》变为现实的太空巨头,揭示其“让科幻不再是幻想”的终极使命。 从一个位于埃尔塞贡多的仓库起步,到如今改变人类太空探索格局的巨头,SpaceX的旅程堪称奇迹。创始人埃隆·马斯克坦言,在创业之初,他给公司的成功率预估“连10%都不到”,甚至直白地告诉早期员工“我们很可能会失败”。然而,正是这份“明知不可为而为之”的决心,源于一个更宏大的信念:如果没有一家新的商业航天公司来推动技术革新,人类将永远无法成为真正的太空文明。SpaceX的诞生,就是要将那些激动人心的科幻未来变为现实,让前往月球、火星甚至更远的地方,不再是少数宇航员的特权,而是属于每一个人的梦想。 您将了解到: * 为什么马斯克在预估SpaceX成功率不足10%的情况下,依然选择倾注所有? * 除了发射火箭,SpaceX的终极使命——将《星际迷航》变为现实——究竟意味着什么? * 在解决地球问题的同时,我们为什么还需要一个能让人“兴奋到迫不及待醒来”的太空未来? 💡时点内容 | Key Topics * [01:46] 从仓库到IPO的奇迹:Elon Musk回顾了SpaceX从一个仓库里的小公司起步的经历,并透露他当时给公司的成功率预估“连10%都不到!”。他分享了自己当初认为公司多半会失败,但仍然坚持尝试,因为必须有人去推动人类成为太空文明。 * [01:58] 推动太空文明的使命:Elon Musk指出,尽管其他航空公司也制造了优秀的火箭,但他们并未追求使生命多行星化的必要技术。他强调,如果没有一家新的公司进入太空领域,那么“人类就永远无法成为一个真正的太空文明”,而这正是SpaceX必须被创建的原因。 * [02:10] 让科幻不再是幻想:Elon Musk分享了SpaceX的终极目标,是将《星际迷航》等科幻作品中的未来变为现实。他强调,公司的全部意义在于“让科学幻想不再是幻想”,通过技术创新,将那些曾被认为是虚构的激动人心的未来真正地带到人们面前。 * [02:21] 为每个人创造未来:Elon Musk阐述了SpaceX的愿景,即为每一个人创造一个激动人心、鼓舞人心的未来。他强调,目标是希望能够把“任何想去月球的人,任何想去火星的人”都送上太空,而不仅仅是少数经过专业训练的宇航员。 * [02:33] 太空旅行的普及化:Elon Musk承诺,SpaceX致力于让普通大众也能进行太空旅行,而不仅仅是宇航员。他直接对观众表示,SpaceX的目标是“无论你是谁,只要你正在看这段话,SpaceX都希望有能力带你去月球,带你去火星,并最终去到更远的地方。” * [03:02] 创造令人兴奋的未来:Elon Musk认为,尽管地球上永远存在需要解决的问题,但人们也必须拥有能对未来感到兴奋的事物。他指出,SpaceX的目标就是创造一个能“让你在每天早上醒来时,都心怀喜悦”的未来,因为你对即将发生的事情充满期待。 📺相关链接与资源 [视频来源]《Elon Musk: SpaceX is about taking the fiction out of science fiction 》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP113:能被 Benchmark衡量的工作,都不应该是你的创业方向本文《The Untrainable》分析了 2026 年中期 AI 投资领域普遍存在的“绝望感”——即认为除了底层模型实验室(如 Anthropic)和算力供应商(如 Nvidia)之外,一切建立在 AI 之上的应用都是极易被吸收的“薄包装”。然而,深入分析表明,这种观点忽略了真实世界中价值产生的核心逻辑。 核心结论如下: * 可测量性陷阱: 基准测试(Benchmarks)能够衡量的任务(即可读工作)正迅速成为商品,而真正的商业价值存在于那些“不可读”的、无法通过训练轻易习得的私人数据和复杂现实中。 * 组织速度 vs. 技术速度: AI 的能力增长极快,但企业组织的变革、信任的建立和问责制的落实却受到人类物理时间的限制。 * 吸收前沿: 模型实验室确实在吸收应用层的功能(如检索、工具使用),但拥有私人真相、特定领域标准定义权和深入客户工作流的企业将建立起持久的护城河。 * 意图的稀缺性: 智能正在商品化,但“决定构建什么”的意图和对复杂结果的法律问责,是算力无法取代的稀缺资源。 1. 软件工程的误读:基准测试与现实的差距 投资者普遍认为 AI 模型将彻底取代软件工程,但实际数据显示了更复杂的图景。 * 生产力悖论: MIT 的研究指出,尽管最新的编程代理使代码编写量增加了约 180%,但实际交付(Ship)的代码量仅增长了约 30%。这表明编写代码已变得廉价,但确保代码正确并符合复杂系统要求的环节依然由人类主导。 * 基准测试的局限: 编译器和测试套件是免费的验证器,这使得编程代理在基准测试中表现卓越。然而,基准测试无法衡量代码是否适用于拥有十年历史、充满未记录逻辑和脆弱部署管线的旧代码库。 * 慢速护城河: 复杂系统的正确性无法通过排行榜读取,只能通过在现实世界中长期运行来验证。正如 Noam Brown 所言,评估一个代理一年跨度表现的唯一可靠方法就是运行它一年。这种时间成本是资本无法压缩的护城河。 2. 价值的象限:可读性与私有真相 根据任务的饱和度(Saturated)和答案的公开性,可以将工作划分为不同的价值区域: 3. 吸收前沿与应用层的防御 底层实验室正在不断扩大其功能边界,试图吞噬应用层的“脚手架”(Scaffolding)。 * 吸收机制: 检索、路由、工具调用、甚至推理策略,正逐渐被拉入模型权重中。 * 应用层的策略: * 深度翻译: 应用层的价值在于将公司的私有现实“翻译”给模型,并提供行动工具。 * 专注性优势: 通用代理为了应对一切场景而成本高昂,而专注特定工作流的应用可以优化成本并保留利润。 * 结果定价: 领先的公司(如 Sierra、Cognition)不再按代币收费,而是按结果收费(如解决客户问题、性能保证)。这要求应用必须深入系统内部并拥有定义“完成”的权力。 4. 无法跨越的壁垒:权限、信任与问责 即便模型智能超过人类,某些领域依然存在算力无法攻克的“锁”与“闩”。 * 环境之锁(权限): AI 必须被授予进入银行生产系统或医疗记录的权限。这种信任建立在安全审查、合同约束和长期的关系之上。 * 用户之闩(习惯与信任): 例如,OpenEvidence 之所以成功,是因为它已进入医生的日常习惯,这种信任是基于关系的,而非梯度下降(Gradient Descent)所能习得。 * 法律问责: 模型无法承担法律责任,无法在答案错误时被起诉。最终必须有人对 AI 的行为签字负责。 * 定义的权力: 谁定义了“好”的标准,谁就掌握了话语权。法律领域的 Harvey 或医疗领域的 OpenEvidence 正在通过建立行业基准来确立权威。 5. 结论:寻找“不可训练”的价值 在 AI psychosis(精神官能症)蔓延的背景下,理解价值的转移方向至关重要: 1. 向不可读性靠拢: 避开那些可以被轻易衡量和训练的通用任务。 2. 深入私人现实: 价值正滑向模型无法触及的少数地方——即具有历史积累的、私有的、非结构化的真实环境。 3. 重新承保(Underwriting): 在特定任务上使用私有数据和评估体系,训练出的专用模型可以在关键环节击败通用模型。 4. 意图决定胜负: 模型可以执行指令,但无法告知什么值得构建。找到尚未被发现的用途,比拥有更多算力更具防御性。 最终洞察: 基准测试得分的提升实际上是“价值即将归零”的领土图谱。真正的幸存者是那些能够进入复杂系统、从事“不体面”的翻译工作、并最终定义行业标准的企业。
EP112:Claude Code一周年回顾访谈从设计师提交代码到AI智能体大军协同作战,软件开发的未来已然到来。在本期节目中,Claude Code负责人Boris Cherny与产品负责人Cat Wu将带我们深入幕后,揭示Claude Code在过去一年中如何从一个简单的工具演变为一个能够自我修复、模糊团队边界、甚至让工程师在手机上完成一半工作的强大生态系统。 一年前,Claude Code的发布仅在Slack中获得了零星的回应;一年后,它已演变成一个由无数AI智能体组成的协同大军。在本期节目中,Boris Cherny分享了一个令人震惊的案例:一位工程师的AI智能体自动监听所有相关的Bug报告,主动编写并提交修复方案。更不可思议的是,当Boris自己的智能体着手修复一个问题时,竟发现另一个智能体已抢先一步完成任务。这种多智能体并行工作、甚至“抢活干”的全新协作模式,预示着一个开发效率呈指数级增长的新时代的到来,而这仅仅是冰山一角。 您将了解到: * 当AI让设计师和产品经理也能轻松编码,传统的软件开发团队边界将如何被彻底打破? * 顶尖开发者是如何摆脱繁琐的编码和审查,转而指挥AI智能体大军,甚至在手机上完成一半开发工作的? * 从手动确认到AI自动审查,为什么说让AI模型自己把关反而比人类点击“同意”更安全? 💡时点内容 | Key Topics * [01:34] AI的自我进化:Boris Cherny回顾了Claude Code从一个只能处理简单任务的早期版本,到如今能够自我测试和修复的巨大飞跃。他强调,AI智能体验证的关键在于“这个智能体能真正把任务跑起来吗?”,而不仅仅是传统的单元测试。他分享了看到Claude首次在Bash环境中自我测试时的震撼感受。 * [05:07] 职能的全面融合:Cat Wu和Boris Cherny探讨了AI如何模糊工程师、产品经理和设计师之间的界限。Cherny分享了看到设计师提交代码合并请求的惊讶,并指出当AI负责编码后,更重要的是“你有什么样的想法”。Wu补充说,这个趋势在企业客户中普遍存在,从财务到设计,各角色都在用AI编码。 * [05:39] 智能体的协同工作流:Boris Cherny介绍了一个让他感到兴奋的应用方向:“自动化例程”。他分享了一个案例,工程师的AI智能体能自动监听工单并提交修复方案。他进一步透露,自己的智能体曾发现另一个智能体已抢先修复了一个bug,并认为这种多智能体并行处理任务的模式是未来的重要变化。 * [08:44] 自动模式与安全范式:Boris Cherny解释了他为何从“计划模式”转向了完全依赖“自动模式”,认为新模型已不再需要明确的规划步骤。他强调,自动模式通过AI模型来审查和路由请求,比让用户手动确认每一个权限提示更安全,因为它能避免用户的“习惯性同意”疲劳,并将注意力集中在少数真正危险的操作上。 * [12:23] AI重塑组织核心:Boris Cherny将当前AI对组织的影响比作90年代个人电脑的普及。他指出,真正的生产力提升并非简单地将AI添加到现有流程中,而是要“把电脑放在中心,让所有业务流程都通过电脑来运行”。他认为,成功的公司正将Claude置于业务核心,从新员工入职到代码审查,一切都围绕AI展开。 * [16:02] 随时随地的AI编程:Boris Cherny分享了他个人工作流的颠覆性变化,透露他现在大约一半的工程开发工作是在手机上完成的。他描述了在电脑上启动一个任务,然后通过手机上的“远程控制功能”随时随地跟进、查看进度甚至启动新代理的工作方式,并感叹“我甚至都不需要再回到电脑前了”。 * [19:35] 上下文的极简主义:Boris Cherny和Cat Wu探讨了从提示词工程到上下文工程的演变,并提出了“上下文极简主义者”的理念。Cherny认为,对于当今的模型,无需再提供大量上下文,只需给予最基础的工具集和拉取上下文的入口,让模型自己去解决问题,因为“如果你给模型太多的上下文,其实就像是在对它进行微观管理”。 📺相关链接与资源: [视频来源]《Reflecting on a year of Claude Code》 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
EP111:Loop Engineering - 从提示智能体,到设计提示智能体的循环本文档《Loop Engineering》概述了软件开发中一个新兴的范式转变:循环工程(Loop Engineering)。其核心理念是:开发者不再直接向编码智能体(Coding Agents)发送提示(Prompt),而是设计一套自动化系统(即“循环”),由系统根据预定义的任务和目标自主驱动智能体。这种模式将智能体从单纯的“工具”提升为能够自我发现任务、执行任务并验证结果的自主系统。尽管这种模式显著提高了生产力杠杆,但也带来了代币(Token)成本上升、质量下滑(Slop)以及开发者“认知降级”等潜在风险。 循环工程的核心理念 循环工程代表了与编码智能体协作方式的根本性变革。 * 从“手持工具”到“设计工厂”:过去两年的主流模式是“提示工程”,即开发者手动编写提示、提供上下文并阅读回复。循环工程则是构建一个小型系统,负责寻找工作、分配任务、检查结果并决定下一步行动。 * 递归目标:循环被视为一种递归目标。开发者定义一个目的,AI 则不断迭代直至完成任务。 * 工具一致性:目前的先进工具(如 Claude Code 和 Codex)已经内置了实现循环工程所需的全部组件,这意味着开发者可以专注于设计通用的循环逻辑,而非受限于特定工具。 循环工程的五个核心构建块 高效的自动化循环由五个关键组件构成,外加一个持久化的“存储”机制。 1. 自动化(Automations):循环的心跳 自动化使循环能够按计划持续运行,而非一次性执行。 * 功能:自动进行任务发现和分拣(Triage)。 * 实例:如每日扫描 CI 失败记录、总结提交简报、追踪上周引入的 Bug。 * 机制:在 Claude Code 中通过 /loop(按频率运行)或 /goal(持续运行直至条件达成)实现;在 Codex 中通过“自动化选项卡”设置。 2. 工作树(Worktrees):解决并行冲突 当多个智能体同时工作时,文件冲突是主要障碍。 * 作用:利用 Git Worktree 为每个智能体创建独立的运行目录和分支。 * 益处:确保不同智能体的编辑不会相互干扰,实现物理上的隔离。 3. 技能(Skills):项目上下文的持久化 技能是防止智能体在每个会话中反复“重学”项目背景的方法。 * 形式:通常为包含 SKILL.md 的文件夹,记录特定的指令、构建步骤和约定。 * 价值:将“意图”固化。如果没有技能,智能体会根据猜测填补意图空白(即“意图债务”);有了技能,项目知识可以随时间累积。 4. 插件与连接器(Plugins and Connectors):扩展操作边界 循环如果只能访问文件系统,其能力是有限的。 * 集成:通过模型上下文协议(MCP)连接外部工具,如问题追踪器(Linear)、数据库、API 或 Slack。 * 结果:使智能体能够自主打开 PR、链接工单并在 CI 通过后发送通知。 5. 子智能体(Sub-agents):制衡机制 循环中最关键的结构化设计是将“执行者”与“检查者”分离。 * 逻辑:编写代码的模型通常对其自身的错误过于宽容。 * 配置:通过不同的 TOML 或配置文件定义具有不同职责的智能体(例如,一个负责实现,一个负责安全性审查,一个负责验证规范)。 6. 核心补充:外部记忆(Memory) 由于模型在不同运行之间会遗忘,循环需要一个“外部大脑”。 * 载体:Markdown 文件或项目看板(如 Linear)。 * 作用:在磁盘而非上下文窗口中记录已完成的工作和待办事项,确保长效运行的智能体不会丢失进度。 循环工程中的关键工具特性对比 风险、限制与开发者职责 尽管循环工程极大地释放了生产力,但它并未消除人的参与需求,反而对开发者的判断力提出了更高要求。 1. 验证责任 循环生成的代码并不等同于经过验证的代码。尽管子智能体可以协助审查,但最终确保代码运行正常的责任仍在人类工程师手中。 2. 认知与理解债务 * 理解腐蚀:循环交付代码的速度越快,开发者对代码库的实际了解就越少。 * 认知投降:开发者可能会为了规避思考而完全接受循环产生的任何结果。 3. 成本与质量平衡 * 代币成本:子智能体的并行运作会消耗大量代币,需要根据预算调整使用模式。 * 质量下滑(Slop):必须警惕自动化导致的低质量代码堆积。 4. 杠杆的双向性 循环本身是中性的。深度理解工作的开发者利用它加速;试图逃避思考的人则利用它快速陷入更深的困境。 结论:工程师的新角色 循环工程的出现意味着工程师的工作重点正在从编写提示词转向设计控制系统。正如 Anthropic 的 Claude Code 负责人 Bcherny 所言:“我的工作是编写循环。” 然而,这种转变要求开发者在建立自动化循环的同时,必须保持对代码的深度介入。开发者应当像“设计工厂的人”一样去构建循环,而不是做一个只会点击“开始”按钮的旁观者。只有在理解的基础上使用循环,才能在保持质量的同时实现效率的指数级增长。 📺播客说明 本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。