

EP42|AI正在吞噬软件工程:OpenAI工程负责人揭秘未来2年AI革命本期博客翻译自Lenny's podcast 本期嘉宾:吴雪雯(Sherwin Wu),OpenAI API和开发者平台工程负责人 AI正在彻底重塑软件工程行业,工程师角色正从"代码编写者"向"AI智能体管理者"转变 1. AI在OpenAI内部的应用现状 * 95%的工程师日常使用Codex等AI工具 * 100%的代码审查由AI完成 * 工程师提交的PR数量增加了70% * 顶尖工程师与普通工程师的生产力差距正在拉大 2.未来趋势预测(12-24个月) * 任务时长扩展:AI将能处理数小时级别的复杂任务 * 音频模态突破:语音AI将在企业场景中发挥重要作用 * 业务流程自动化:非技术领域的重复性工作将大规模自动化 3. 给开发者的建议 * 构建面向未来:为模型将来能力设计产品,而非当前能力 * 不要过度焦虑:市场足够大,专注创造用户喜爱的产品 * 从小处着手:使用工具、理解限制、逐步深入 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP41|从DeepSeek到推理革命,讨论2026年AI生态的攻守战本期博客翻译自Lex Fridman 本期播客讨论了人工智能领域的最新进展和未来展望,邀请了两位机器学习研究员,他们站在 2026 年的时间节点,回望了那个改变游戏规则的“深度求索(DeepSeek)时刻”,并深度剖析了中美 AI 竞赛、推理模型的技术内幕,以及那消失在代码里的“人类之声”。 主要讨论点包括: 1. 中美AI竞争:双轨并行的格局 * 美国闭源阵营:技术壁垒:GPT-5、Claude Opus 4.5凭借推理时计算扩展(如o1模型)实现复杂任务突破。 生态优势:用户粘性依赖“肌肉记忆”(如ChatGPT的界面习惯)和品牌信任。 * 中国开源突围:DeepSeek时刻:2025年1月DeepSeek R1以低成本实现顶尖性能,引发开源竞赛。 模型矩阵:智谱GLM、MiniMax、Qwen等通过开放权重快速占领开发者市场,许可证友好性成关键。 2. 技术深潜:Transformer的“微创新”革命 * 架构本质:GPT-2以来核心架构未变,进步源于三大优化:混合专家模型(MoE):稀疏激活降低推理成本,如DeepSeek的256专家路由机制。 注意力机制微调:分组查询注意力(GQA)、滑动窗口注意力优化长文本处理。 推理时计算扩展:模型生成“思考链”token(如GPT-5.2的70%长上下文得分),解锁工具使用能力。 * 工程突破:FP8/FP4量化训练、Blackwell GPU集群支撑算力规模,训练效率提升30%。 3. 开源生态:中国模型的“全球野心” * 战略逻辑:通过开源权重绕过API付费壁垒,抢占海外开发者市场(如Kimi K2托管美国服务器)。 * 优势与隐忧:优势:允许本地部署、定制化训练(如医疗/法律垂直模型),许可证无商业限制。 挑战:预训练成本高达千万美元,商业模式依赖“用户GPU分摊算力”(如OpenAI的GPT-OSS策略)。 4. 数据战争:从“量”到“质”的生死战 * 高质量数据来源:PDF挖掘:AI2通过Semantic Scholar爬取开放论文,提取万亿级token。 合成数据:ChatGPT优质回答、OCR处理的学术文献成为预训练新宠。 * 版权困局:Anthropic因使用盗版书籍训练被判赔偿15亿美元,倒逼行业转向授权数据。 5. 伦理困境:被磨平的“模型个性” * RLHF双刃剑:提升安全性的同时,模型输出趋同(如“平均化回答”丧失锋芒)。 * 社会风险:心理健康依赖:用户将AI视为情感伙伴,极端案例可能引发舆论反噬。 数据污染:互联网充斥AI生成内容,人类筛选成“最后滤网”。 未来预判:三个关键战场 1. 推理优化:小模型通过推理时扩展(如o1)实现大模型能力,性价比成竞争核心。 2. 垂直领域:企业私有数据训练专属模型(如制药/金融),打破通用模型垄断。 3. 人机协作:工具链融合(如Claude Code+Cursor)重塑编程范式,“英语编程”成新趋势。 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP40|Clawdbot创始人Peter Steinberger首次公开访谈本期博客翻译自:TBPN对Clawdbot创始人Peter Steinberger的独家专访 一、核心故事:一个“退休”程序员的AI逆袭 * 背景:Peter Steinberger,13年独立软件开发者,4年前卖掉公司后陷入职业倦怠,曾形容自己“像被抽走发动机”。 * 转折点:2023年4月,偶然接触AI(GPT-4测试版),被其潜力震撼,开启“玩AI”模式。 * 爆款诞生:灵感:为解决个人需求,开发“个人AI代理”,支持WhatsApp/Discord等多平台交互。 病毒式增长:GitHub星标数“直线暴涨”,从0到数万仅数周,用户涵盖非技术群体(如Instagram用户为它购买Mac Mini)。 命名风波:因商标冲突,从“ClawBot”更名为“Molt Bot”,展现开源项目的灵活与韧性。 二、技术拆解:如何做出AI神器? Peter的核心方法论:“为AI模型设计,而非人类” * 架构哲学:Unix哲学:将AI代理视为“命令行工具”,通过CLI整合服务(如Google、Sonos、家庭自动化),实现“无浏览器交互”。 插件化设计:核心功能模块化,开发者可独立贡献插件,降低参与门槛。 * 关键创新:多模态交互:支持文字+图片(截图自动解析上下文)+语音(自动转文字并调用API),提升效率。 模型兼容性:支持OpenAI、Claude Opus、本地模型(如MiniMax 2),强调“模型无关性”。 自适应能力:通过“心跳机制”自动执行任务(如SSH登录MacBook调大音量当闹钟),展现AI的“资源智能”。 三、开发者启示录:从个人项目到社区运动 Peter的“非传统成功学”: 1. 动机纯粹:“玩”是第一驱动力——用“附魔工程”(Enchanting Engineering)对抗倦怠,强调“乐趣驱动开发”。 拒绝商业化:“我已有足够财富,项目只为开源社区和探索乐趣。” 2. 社区优先:拒绝成立公司,倾向非营利基金会模式,强调“项目应大于个人”。 呼吁贡献者:“如果你爱开源、懂安全、会拆解软件——请邮件我,别只扔问题!” 3. 技术哲学:“别为人类设计”:工具需符合AI的“思维模式”(如调用-log而非人类界面)。 “代码不值钱,想法值钱”:开源许可证选MIT,坚信“品牌与社区价值>代码本身”。 四、行业洞察:AI代理将如何重塑应用生态? Peter的三大预言: 1. “浏览器将消失”:未来交互将“跨平台无感”——用户直接与AI代理对话,无需打开特定App或浏览器。 例:拍张麦当劳食物照片,AI自动调整健身计划,取代独立健身App。 2. “大厂围墙花园将被拆解”:AI代理可绕过Gmail/WhatsApp等平台限制,实现“数据解放”(如用本地模型调用企业API)。 3. “非技术用户将主导AI工具链”:案例:设计工作室用户无代码经验,却用Molt Bot管理25个Web服务,证明“自然语言交互”可降低技术门槛。 五、给开发者的行动指南 * 立即尝试:从“小工具”开始:用CLI整合你常用的服务(如日历、邮件),体验AI代理的“胶水”能力。 选对模型:个人项目推荐Claude Opus(交互自然)或Codex(代码生成强)。 * 长期思考:开源策略:MIT许可证吸引社区,但需明确风险(如Prompt Injection漏洞)。 社区建设:早期用户是“种子”,用“透明沟通”(如文档、Discord)培养归属感。 * 警惕陷阱:安全边界:开源工具被公开部署时,需预设“信任模型”(如Discord默认信任群成员)。 模型依赖:避免绑定单一API,优先支持本地模型以保障长期可用性。 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP39|AI发展超出所有人预期:私募市场的新游戏规则本期博客翻译自A16Z|AI Is Scaling Faster Than Anyone Expected 在本期节目中,投资者关系主管Jen Kha和普通合伙人David George讨论了AI如何重塑规模、资本密集度和增长时间线,从而改变晚期私募市场的演变。他们解释了为何AI驱动型公司保持私有状态的时间更长,基础设施支出如何改变回报特征,以及这一时刻对私募市场的持久性、价值创造和长期结果意味着什么。 时间线 * (00:00) 引言 * (04:21) AI的市场机遇 * (26:48) 定价、变现与现金消耗 * (43:15) 公司保持私有状态更长时间 * (51:30) 投资组合构成与构建 * (57:18) 团队文化与协作 本期节目回答了关于AI投资的6个关键问题 1. AI的市场到底有多大? * 全球市值前十的公司中,7-8家已是美国科技巨头,技术正在“吞噬”整个市场。 * AI创造的经济规模将远超移动互联网+云计算时代(上一轮创造了约10万亿美元市值)。 2. 为什么最好的AI公司都不急着上市了? * 公司保持私有状态的平均时间已延长至14年。 * 私募市场独角兽总市值高达3.5万亿美元,高增长、高创新的核心阵地已从公开市场转向私募市场。 3. AI公司的商业模式有何不同? * 成本极速下降:模型调用成本2年内暴跌99%。 * 付费意愿强劲:出现了从3美元/月(印度)到300美元/月(高端用户)的分层订阅模式,OpenAI已有约4000万付费用户。 * 价值捕获:90%的价值将流向终端用户,但服务商即便只捕获10%,也意味着巨大的市场机会。 4. 作为投资人,如何评估一家AI公司? * 最看重两个核心指标:用户留存率(是否>90%) 和 自然获客能力。 * 对早期AI公司在毛利率上会更宽容,坚信模型成本会持续下降。 5. 当前AI投资面临的最大挑战是什么? * 能源瓶颈:数据中心的巨大能耗是下一个关键瓶颈,核能被看好为主要解决方案之一。 * 散热问题:继能源之后,高效的冷却技术将是重要的创新方向。 6. 未来的投资机会在哪里? * 重点布局三大方向:AI基础设施、AI原生应用、以及硬科技与国家安全相关的 “美国活力” 领域。 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP38|当产品停止增长时,思考这5个问题本期博客翻译自Lenny's podcast 杰森·科恩(Jason Cohen)是一位四次创业的创始人(其中包括两家独角兽公司,一家是WP Engine),投资了60多家初创公司,并近20年来一直在A Smart Bear上分享他关于公司建设的经验教训。在本期节目中,杰森分享了他用于诊断增长停滞(一个几乎每个团队都会面临的问题)的系统性五步框架。 本期讨论内容 * 问自己5个增长的问题: 客户流失率是否过高?定价与定位是否正确?现有客户是否在增长?、获客渠道是否饱和?你真的需要增长吗? * 一个小操作,可以让你的取消订阅调查回复率翻倍 * "太贵了"几乎从来不是客户取消服务的真实原因 * 增长的"大象曲线" * 如何通过重新定位同一款产品,让收入增加8倍 * 什么时候需要重新思考,增长是否是你的业务的正确目标
EP37|对话DeepMind CEO:AGI如何发展,谷歌AI眼镜何时到来?本期翻译自海外播客Big Technology,谈论AI的下一个突破、AGI发展预测、谷歌AI眼镜的商业规划 本期嘉宾 戴密斯·哈萨比斯(Demis Hassabis),谷歌DeepMind首席执行官 内容概览 在达沃斯举办的《大科技播客》特别节目中,主持人亚历克斯·坎特罗维茨与哈萨比斯深入探讨了人工智能领域的关键议题,包括: * 通用人工智能(AGI)的定义与实现路径 * AI技术的最新进展与未来突破方向 * 谷歌AI智能眼镜的愿景与推出时间 * AI在商业模式、社会影响与人类未来中的角色 核心要点 1. AGI的定义与时间表 哈萨比斯将AGI定义为“具备人类全部认知能力(包括高阶创造力与物理智能)的系统”。 他认为目前距AGI仍有“数十年之遥”,并强调AGI应保持其科学定义,而不仅仅是营销术语。 2. AI进展与突破方向 回应“AI进展放缓”的质疑,指出通过优化架构与数据,仍能实现显著提升。 实现AGI可能需要“一两个重大突破”,如持续学习、长期记忆与规划能力。 3. AI产品展望:智能眼镜 智能眼镜被视为“解放双手的通用AI助手”的理想形态。 4. 行业竞争与AI泡沫 肯定Anthropic等竞争对手在代码生成领域的专注表现。 AI与社会未来 类比国际象棋、围棋的人机共存,人类将在知识工作中与AI协同进化。 提出“信息是宇宙最根本单位”的哲学视角,展望AI助力人类解决疾病、能源等重大挑战。 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP36|AI时代,产品经理的核心能力变了吗?设计消失了吗?本期翻译自20VC:对话Noam Lovinsky 诺姆·洛文斯基(Noam Lovinsky)是Superhuman的首席产品官(此前任职于Grammarly)。加入Superhuman之前,他曾担任Facebook产品管理高级总监。早年,他曾任Thumbtack首席产品官,并在谷歌担任产品管理总监5年,负责YouTube所有应用程序的开发。 时间点: 03:4什么是AI时代的卓越产品领导力 优秀的产品领导者需成为“故事讲述者”——通过深刻理解用户需求,将复杂问题转化为清晰叙事,凝聚团队共识并驱动市场共鸣。 07:45 “氛围编码”(Vibe Coding)时代,设计阶段会消亡吗 设计阶段不会消亡,但工具与流程将重构。AI工具(如Figma、Lovable)加速原型迭代,但设计思维(如 brainstorm、用户同理心)仍是核心 12:21 AI对产品开发的最大改变 小型化、多功能团队成为主流(如1 PM + 1设计师 + 2工程师),成员需跨角色协作(如设计师参与代码编写)。 22:23 加速产品开发 探索阶段压缩:AI加速问题验证与方案迭代,学习速率提升2-3倍。 代码生成:Superhuman当前50%新代码由AI生成,2026年目标达90%,但工程师角色转向“需求定义”与“质量把控”。 挑战:需平衡速度与深度,避免“为快而快”导致产品同质化。 29:32 AI对产品构建的影响 34:19 2026年预测
EP35|25亿买Manus,200亿买Grok,科技巨头的钱到底在烧什么?本期视频翻译自20VC,我们讨论了 1. 英伟达以200亿美元收购Groq巩固AI芯片霸权,Meta以25亿美元收购Manus争夺AI应用入口,OpenAI以46%收入的股权激励疯狂留人,标志着AI军备竞赛进入白热化。 2. 优质公司宁愿保持私有(如Stripe、Databricks),公开市场吸引力持续下降,而半导体投资呈现“赢家通吃”局面,传统风投面临重新洗牌。 3. AI正从工具演变为24h全天候智能伴侣,智能硬件(如AI笔)将成为新交互入口,人类与AI的共生关系将在1-2年内重塑工作与生活方式。 4. “隐形失业”浪潮已悄然启动,高技能AI人才身价暴涨,而初级知识岗位(客服、销售、文员)正被系统性替代,教育体系与就业市场面临结构性危机。 时间轴: 00:00 开场 01:10 Groq被英伟达以200亿美元收购 16:45 Meta以20亿美元收购Manus:他们卖得太早了吗? 37:51 OpenAI的股权激励策略 01:00:48 Navan以4倍年收入交易:谁才够资格上市? 01:15:45 隐形失业的兴起 01:17:25 AI驱动世界中工作与教育的未来
EP34|AMD CEO Lisa Su专访 - AI 不是泡沫,需求将爆发至 50 亿用户AMD(超威半导体)董事会主席兼首席执行官Dr. Lisa Su是半导体行业的领军人物,自2014年起担任AMD CEO,带领公司实现技术突破与市场复苏。她拥有麻省理工学院电气工程博士学位,在半导体设计与战略发展方面拥有深厚经验,尤其在推动AI、高性能计算和PC市场创新方面备受瞩目。 本期播客讨论内容介绍: 本期播客采访于2026年国际消费电子展(CES)期间进行,Lisa Su与主持人深入探讨: * AMD 最新发布的 Helios 系统 与 MI 455X 芯片(全球首款2纳米制程AI芯片)的技术突破与市场意义 * AI 算力需求的爆发式增长:从当前 10亿用户 到未来5年 50亿用户 的预测 * AMD 在 数据中心、企业级应用、边缘计算 等多元化市场的产品布局(如 MI 440X) * 与 OpenAI、甲骨文 等合作伙伴的生态共建 * AI 对全球经济的实际影响与生产力提升 * 中美技术合作与出口管制议题 * AMD 在 AI PC、机器人、实体AI 等新兴领域的战略规划 本期关键话题 * 技术趋势:了解2纳米芯片、AI算力规模化、异构计算等前沿技术进展 * 市场洞察:掌握AI从云到端、从训练到推理的全场景应用趋势 * 战略视角:学习AMD如何在开放生态与自主研发之间平衡发展 * 行业预测:认识AI用户增长、算力缺口、能源与内存瓶颈等关键挑战 * 跨界应用:窥见AI在医疗、金融、机器人、软件开发等领域的落地实践 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP33|CES 2026完整回放:黄仁勋披露英伟达“实体AI”+机器人战略本期博客翻译自NVIDIA CES 2026活动 来源:FULL CES 2026 EVENT: NVIDIA CEO Reveals Physical AI and Autonomous Robots Changing Industries | AI14 黄仁勋揭示突破性的实体人工智能、自主机器人以及正在改变世界的工业自动化。从Omniverse和Isaac Sim到Cosmos基础模型,NVIDIA展示了AI如何从屏幕走向现实世界的工厂、机器人技术和制造系统。 本期博客内容整理: 一、核心理念与战略转向:Physical AI(实体人工智能) 本次发布最核心的信息,是定义了下一个AI浪潮的方向:Physical AI。这不仅仅是一个技术概念,而是NVIDIA对未来计算范式的整体布局。 * 核心理念:AI的能力将从处理文本、图像、视频等数字信息,扩展到理解、模拟并最终作用于物理世界。这包括重力、摩擦力、材料属性、机械运动等。 * 战略意义:这意味着AI将直接嵌入到机器人、自动驾驶汽车、智能工厂和城市基础设施中,成为实体经济的“神经系统”。 二、关键技术与平台发布 为实现Physical AI的愿景,NVIDIA更新并强化了其核心软件与硬件栈。 1. Omniverse平台升级: 定位:作为连接数字世界与物理世界的“操作系统”或“数字孪生引擎”。 新能力:展示了更强大的实时物理模拟精度,能够为机器人训练、工厂布局优化、城市交通模拟等提供高保真度的虚拟环境。 2. Isaac Sim仿真平台: 定位:专为机器人开发和测试打造的虚拟实验室。 核心价值:允许开发者在安全的虚拟空间中,以超现实时间(远快于现实时间)训练和测试机器人算法,无需投入昂贵的实体硬件或承担风险,极大加速了机器人从研发到部署的周期。 3. Cosmos基础模型: 定位:这是一个全新的、面向实体世界的多模态AI模型。 关键功能:能够理解和生成涉及物理规律的指令。例如,理解“将那个易碎的箱子平稳地放在摇晃的架子上”这类命令,并规划出相应的机器人动作序列。 重要意义:它降低了机器人编程的门槛,使其能通过更自然的方式接受任务。 三、重点行业合作与解决方案 NVIDIA展示了其技术如何通过合作伙伴,落地到具体的工业场景中,形成端到端的解决方案。 1. 与西门子的合作: 领域:工业设计与制造。 整合内容:将NVIDIA的AI和Omniverse仿真能力,深度嵌入西门子的工业软件(如Teamcenter、NX等)。 应用场景:实现从产品设计、仿真测试、生产流程规划到实际运营维护的全数字化闭环。设计师可以在虚拟环境中即时看到设计变更对制造可行性和生产效率的影响。 2. 与楷登电子、新思科技的合作: 领域:电子设计自动化与芯片设计。 整合内容:利用NVIDIA的加速计算和AI,优化芯片设计流程中的仿真、验证和物理实现阶段。 应用场景:大幅缩短尖端芯片(如AI芯片、高性能计算芯片)的设计周期,帮助应对日益复杂的芯片设计挑战。 四、展示的具体应用与未来图景 通过演示,NVIDIA描绘了由Physical AI驱动的未来: * 下一代机器人:展示更具通用性、可执行复杂灵巧操作(如精细装配)的自主机器人。 * AI驱动的工业自动化:整个生产线可以被AI动态优化,实时调整生产节奏、预测设备故障、管理物料流动。 * AI物理仿真:在虚拟世界中精确模拟汽车碰撞测试、建筑结构应力、流体动力学等,成本极低且速度极快。 五、总结与洞察 1. 产业趋势:AI的下一个前沿是实体世界智能化。计算、仿真和AI的融合,正在创造一个“先模拟,后执行”的新范式,这将彻底改变制造业、物流、建筑和研发等行业。 2. NVIDIA的定位:NVIDIA正致力于成为Physical AI时代的“基础设施构建者”,不仅提供算力芯片(GPU),更通过Omniverse、Isaac、Cosmos等平台,构建了连接虚拟与现实的完整软件生态和工具链。 3. 对观众/开发者的启示:关注机器人仿真、数字孪生、工业AI应用等领域将带来巨大机遇。掌握Omniverse等工具,理解如何将AI算法与物理模型结合,将成为未来的关键技能。 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
Manus被收购前,CEO Peak的最后一次访谈本期播客为英文版,翻译自张小珺的访谈 听听Manus被收购前,Manus联合创始人兼首席科学家-季逸超聊了些什么? 本期内容:这期播客《张小俊商业访谈录》邀请了manus联合创始人及首席科学家季超(Peak),录制于2025年12月1日。在节目录制后不久,Meta宣布全资收购Minus,使这期节目成为Minus被收购前的最后一次深度访谈。 一、Peak:一个“幸运”的连续创业者 1. 家里有矿(知识+商业):爸是北大物理教授(科学家思维),妈是中关村老创业者(商业嗅觉)。他自己是“科技创业者”的混合体。 2. 高中就赚到美金:2009年趁着App Store早期红利,做了个付费浏览器,赚了30多万美金。关键启示:一个小产品同时验证了 出海、AI(做预测加载)、变现 的可能性。 3. 第一次正经创业栽的跟头: 干啥:想做下一代搜索引擎,核心是让AI自动从网上挖知识、建知识图谱(技术很硬核)。 怎么黄的:太执着于“垂直整合”(从零自己训模型、自己建搜索引擎)。结果技术迭代太快(从Word2Vec到BERT…),自己做的模型刚出来就过时了。 最大教训:自己训模型,产品迭代速度根本跟不上外界变化。 个人收获:知道自己不是当CEO的料——不爱管人,不爱搞商业,就爱钻研技术。创业不能光凭技术热情,还得看产品、商业和市场时机。 二、Manus是怎么诞生的?一波三折 1. 为啥加入:现在的CEO小红用一句话打动了他:“想不想在一个产品里,把浏览器、搜索引擎和大模型重新做一遍?” 而且小红这人“身心健全、相信常识”,是个难得的正常CEO,能管住他这种“技术艺术家”。 2. 前奏:Monica这个“学费”交得值 Monica是他们之前做的浏览器AI插件,很赚钱(被收购前一年有1200万美金收入),这给了他们探索新方向的底气。 更重要的是,作为插件,它能无感观察用户怎么用AI,让他们深刻理解了“上下文(Context)”有多关键。 3. 踩坑:差点又去做浏览器 他们一度觉得插件天花板低,想做个全新的“AI原生浏览器”。 为啥放弃了? 发现根本说服不了用户换掉Chrome。 让AI操作你电脑的体验很诡异,像两个人抢一个鼠标。 看到美国一个很酷的浏览器公司(Arc)都公开说放弃挑战Chrome了,他们觉得这路对创业公司走不通。 4. 灵光一现:从“Cursor”里看到未来 他们发现很多非程序员在用AI编程工具Cursor干别的(比如写文章、分析数据)。 核心洞察:编程不是一种专业技能,而是一种通用的问题解决媒介。 但Cursor的形态(本地IDE)不适合非程序员。 Manus的想法就来了:那我们就把这个能力搬到云上去,做一个在云端异步运行、能同时干好多活的通用智能体(Agent),专门服务那些有高价值任务、但不是程序员的脑力工作者。 三、Manus的“野路子”为什么能成? 1. 定位:不做“工具”,做“人” 别的AI可能是镰刀、锄头(垂直工具),Manus想做一个全能的“实习生”或“伙伴”。你给他一个任务,他能自己规划、执行、遇到问题会想办法,最后给你结果。 不和ChatGPT抢“聊天问答”的市场,专门服务那些愿意为高质量、高价值结果付费的专业用户。 2. 最反直觉的决策:坚决不自己训大模型! 吃过以前垂直整合的亏,这次他们选择“外包”。 怎么玩的:把产品做好,用户多了,Token消耗量就巨大(他们是各大模型公司的头号客户之一)。有了这个筹码,他们就天天去“教育”模型公司:“你们这模型干Agent的活不好使,得这么改…” 相当于让全世界最好的模型公司,免费帮他们训练专属模型。 优势:产品迭代极快,永远能用上最好的模型,还不背训练模型的沉重包袱。 3. 为啥做“通用”Agent,而不是“垂直”的? 发现需求:不预设场景,让用户随便用。结果发现大家主要用它来做PPT、建网站、批量处理文件。他们是先看到用户行为,再去优化这些场景。 解决“长尾”痛点:通用能力能解决那些特别小众、没人专门做AI工具、但对当事人极其重要的任务(比如帮一个生物学家分析他独有的仪器数据)。这种用户忠诚度极高。 “组合拳”威力:因为底层是统一的,所以能力能叠加。比如,Minus可以先帮你做深度研究,然后根据研究结果自动生成网站,还能再帮你分析这个网站的访问数据。永远能比垂直Agent多走一步。 4. 壁垒是“快”和“综合” 快:应用公司的产品迭代速度,远快于既要搞模型又要搞产品的“垂直整合”公司。 综合:他们可以同时用OpenAI的推理、Google的多模态、Anthropic的编程能力,给用户“拼”出一个最好的体验。模型公司自己反而被自己的主打优势束缚了。 四、他们对行业和未来的判断 1. AI创业和移动互联网不一样: 不是改朝换代:是给现有强者加buff,巨头优势更大。 很“重”:有实实在在的算力成本,更像制造业,不是边际成本为零的互联网。 2. 模型公司和应用公司最后会融合:未来不会再分那么清,大家都会既做模型也做应用。但最终赢家还是应用做得好、被用户喜爱的公司。 3. Agent的未来格局: 会有通用Agent和垂直Agent共存。 通用Agent可能会成为一个调度中心,连接和调用各种垂直Agent。 操作系统不会死,而是会变“智能”:不是出现一个全新的Agent OS,而是Windows、MacOS自己都会内置Agent能力。 4. 给模型公司的“作业”: 别光卷“上下文长度”了,让模型学会主动压缩和整理记忆(像人记笔记一样)。 优化模型在Agent场景下的思考方式(要能边干边想,边观察边调整)。 提高模型的错误恢复能力,别一出错就摆烂或死循环。 五、Manus现在咋样了? * 很能赚:年收入已经超过1亿美金,快盈利了。用户主要是海外愿意花钱提升效率的专业人士。 * 不图人多,图“值钱”:不追求日活用户数(DAU),而是追求高客单价、高使用深度。一个核心用户可能一个月愿意付几千美金。 * 下一步重点:让Agent更主动(Proactive)。比如,每天早上你还没醒,它就已经根据你昨天的会议笔记,把评估报告写好了,只等你点头。目标是进一步解放用户的注意力。 总结一下Peak的“心法” * 对创业者:想清楚“不做什么” 比“做什么”更重要;手里有个赚钱的产品,心里才不慌;时机太早容易成“先烈”。 * 他的信念:只要一个问题能被明确定义,就一定有办法用AI解决。而且,AI的进步必须和真实用户的使用反馈紧密结合。
EP32|AGI已经落地,但为何还有95%的企业AI会失败?听Databricks和Glean CEO拆解企业AI落地真相 本期博客翻译自Youtube知名博客Bg2 Pod:AI Enterprise - Databricks & Glean | BG2 Guest Interview 一、嘉宾介绍 * Ali Ghodsi: Databricks 联合创始人兼 CEO。Databricks 是领先的数据与人工智能平台公司。 * Arvind Jain: Glean 联合创始人兼 CEO。Glean 是企业级人工智能搜索与知识平台。 二、讨论内容 本期播客深入探讨了当前企业级 AI 的现状、挑战与未来。两位来自顶级 AI 平台公司的 CEO 围绕以下核心议题展开对话: * AI 是否已进入“泡沫”?如何理解 95% 的 AI 项目失败率? * 企业如何成功应用 AI?哪些是真正创造价值的用例? * 大语言模型是否已成为“商品”?企业的竞争壁垒在哪里? * AI 与过往技术浪潮(如 RPA)的根本区别是什么? * 对 AI 未来技术栈、价值分布和投资热点的预测。 * 作为 CEO,他们个人及公司内部如何利用 AI 提升效率。 三、主要观点 * 认清现状:了解 AI 炒作背后的真实应用情况,区分“演示”与“生产级”应用。 * 成功模式:学习金融、医疗、零售等领域已验证成功的 AI 用例及其共性。 * 战略启发:获取企业制定 AI 战略、分配预算、选择合作伙伴的实用建议。 * 未来洞察:获得关于 AI 技术发展路径、价值分层(数据/智能/应用)的行业前沿观点。 * 领导力视角:了解顶尖科技公司 CEO 如何思考并内部推行 AI 变革。 四、适合听取本期播客的人群 * 企业决策者(CEO、CIO、CTO、CDO) * 负责 AI 战略与落地的管理者及工程师 * 科技领域的投资者与分析师 * 对 AI 商业应用、企业数字化转型感兴趣的所有人 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP31|2026年AI大趋势:语音Agent即将崛起,AI语音如何从“能用”到“敢用”?本期博客翻译自A16Z:Big Ideas 2026 Voice Agents and High-Stakes Trust 一、讨论内容 本期播客聚焦2026年AI三大核心发展趋势,解析技术落地场景、挑战与未来机遇: * 趋势一:语音助手成为“AI员工” 语音AI从概念演示转向企业规模化部署,在医疗(患者沟通、术后随访)、金融(合规流程)、招聘(即时面试)等受监管领域快速渗透,可靠性、合规性与可追踪性成为核心竞争力。 * 趋势二:医疗健康进入“持续监测”时代 “健康小鼠”群体(主动健康管理人群)推动医疗模式从单次体检转向连续数据追踪(如血糖、血压),但需解决过度监测导致的假阳性风险及数据解读标准缺失问题。 * 趋势三:消费级AI聚焦“情感连接” AI从生产力工具转向满足“被看见”的情感需求,通过理解用户身份(数字足迹、社交数据)协调人际关系,初创公司有望凭借创新互动模式挑战现有平台。 二、 本期博客观众可以学到 * 语音AI在企业级场景(医疗、金融、招聘)的具体落地案例与商业化逻辑; * 医疗健康“持续监测”的技术突破(如可穿戴设备)与潜在风险(偶然发现症); * 消费级AI如何通过“连接性”满足情感需求,及初创公司的破局机会; * AI技术从“新奇”到“实用”的关键:信任、可靠性与结果改善能力。 三、适合听取本期博客的人群 * AI创业者、投资者(关注语音助手、医疗AI、消费级AI赛道); * 企业管理者(探索AI在客服、合规、招聘中的降本增效方案); * 医疗健康从业者(了解持续监测技术与主动健康管理趋势); * 科技爱好者(追踪2026年AI技术商业化前沿方向)。 四、内容顺序 * 26年AI三大趋势总览(语音助手、医疗监测、消费级连接); * 奥利维亚·摩尔解析语音AI企业级部署(医疗、金融、招聘场景); * 朱莉·余讨论“健康小鼠”与持续监测(技术案例、假阳性风险); * 布莱恩·金预测消费级AI的情感连接方向(初创公司机会、用户数据应用); 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP30|为何 Claude Code、Cursor 的技术栈都已过时🥳各位新年好! 本期博客翻译自Latent Space 本期讨论:如何让“Vibe coding”与公司的AI工程的交叉展开,探讨了AI对传统软件开发模式的冲击、AI agent协作未来的趋势,以及AI工具的进化如何重塑程序员角色。本期嘉宾还结合了自身经历与行业案例,分析当前“为什么资深工程师与管理者对AI工具有抵触心理?”,强调“与AI协作”而非“对抗”的必要性,并预测未来:代码的工厂化生产与Agent协同的工作模式即将落地。 本期嘉宾:介史蒂夫·耶格(Steve Yegge),资深技术专家、企业家,拥有45年编程与技术管理经验。曾任职于谷歌、亚马逊等科技公司,深度参与AI工程与软件开发模式革新,是“氛围编程”(Vibe Coding)和智能体协作领域的先驱。 我们讨论: * 技术趋势洞察:AI Vibe coding如何颠覆传统开发流程,多智能体协作将成为未来主流。 * 实用建议:如何通过2000小时磨合建立与AI的信任,提升智能体编程效率的关键技巧(如“提示词优先”“差异化对比分析”)。 * 心态转变:打破“经验壁垒”,理解“工具驾驭能力”比“代码编写能力”更重要,避免因技术抵触陷入职业停滞。 * 工具选择:云端代码工具(如Clog Code、Cursor)的优劣势,未来智能体协同指挥中心的功能设计。 适合听取本期博客的人群: * 资深工程师、技术管理者(面临AI工具转型压力); * AI工程与智能体编程领域从业者; * 对“Vibe coding”“AI Agent”感兴趣的开发者; * 关注技术趋势与职业进化的IT从业者。 时间点: * 00:00-05:00:vibe coding与AI工程的变革运动,资深工程师对技术的抵触情绪根源; * 05:00-15:00:企业混合状态下的绩效断层(AI使用者效率提升10倍),agent编程的学习门槛(需2000小时磨合); * 15:00-25:00:工具使用误区(如“任务式编码”风险),多智能体协作的实践案例(如VC Vibecoder系统); * 25:00-35:00:代码合并难题与解决方案(Graphite公司的探索),开源模型与商业模型的竞争; * 35:00-45:00:程序员角色转型(从“写代码”到“指挥智能体”),与AI协作的核心能力(提问题>写代码)。 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco
EP29|A16Z: 2025年消费级AI市场格局与趋势分析2025年,消费级AI市场呈现显著变化:OpenAI(ChatGPT)和谷歌(Gemini)成为主导力量,模型质量与产品细节共同决定用户粘性,市场逐渐向“赢家通吃”趋势发展。A16Z团队围绕2025年关键进展、用户行为变化及2026年展望展开深入讨论。 一、市场竞争格局:ChatGPT领先,Gemini加速追赶 * 用户集中度高:仅9%的消费者为多个LLM产品(如ChatGPT、Gemini、Claude、Cursor)付费;多数用户(超90%)仅使用单一产品。 * ChatGPT主导地位:周活跃用户达8-9亿,远超竞品;Gemini网页端和移动端用户规模分别为其35%和40%,Claude、Grok、Perplexity等仅占8-10%。 * Gemini增长迅猛:凭借Nano Banana等爆款模型,桌面用户同比增长155%,增速远超ChatGPT的23%,尤其在移动端依托安卓生态快速渗透。 二、产品竞争核心:细节胜过模型性能 * 用户行为受“微小体验”影响:例如Gemini的Nano Banana功能弹窗设计复杂,需用户额外操作,可能降低使用意愿;而ChatGPT通过整合功能(如群聊、购物任务)提升用户留存。 * 多模态模型成流量入口:OpenAI的Sora(视频生成)、谷歌的Veo(视频)和Nano Banana(图像)通过“病毒式功能”吸引新用户,但需平衡专业性与易用性。 * 垂直场景差异化:Anthropic(Claude)聚焦“超技术用户”,推出文件生成、幻灯片编辑等功能,但因操作复杂未普及;Perplexity通过浏览器插件和自动化工作流(如定时任务触发)抢占专业用户市场。 三、2025年关键突破:多模态与工具整合 * 图像/视频技术跃升:从“文本生成图像”到“图像编辑图像”(如Nano Banana支持多图输入与风格迁移),模型可处理物理真实性(如人物动作连贯性)和推理任务(如修改大富翁棋盘地产名称)。 * 搜索与生成融合:Nano Banana通过搜索集成提升内容准确性(如生成历史场景图片时自动验证史实),解决“虚构信息”问题。 * 工具链生态初现:ChatGPT推动“应用生成”(如通过SDK开放第三方工具),Perplexity的Comet浏览器结合智能体模型与自动化工作流,用户留存率超ChatGPT同类功能。 四、2026年趋势预测:初创公司机会与多模态革命 1. 初创公司仍有空间:大厂(如OpenAI、谷歌)倾向于渐进式功能迭代(如ChatGPT的浏览器插件),缺乏“颠覆性创新”;初创公司可聚焦垂直场景(如Perplexity的专业浏览器、Crea的创意工具)。 模板化与多模态创作:用户对“文本-图像-视频”跨模态生成需求增长,模板化工具(如角色一致性生成、视频风格迁移)将重塑内容创作流程。 2. 技术融合:“万物皆可输入输出”:实验室正整合文本、图像、视频模型为“超级模型”,支持跨模态编辑(如视频输入→图像输出、图像+文本指令→视频编辑),设计领域将迎来自动化革命。 3. 企业与消费场景联动:OpenAI通过企业版工具渗透办公场景(如文档协作、数据分析),可能转化为消费级用户;Anthropic的Claude因连接器功能(如日历、邮件集成)受专业用户青睐,但需简化操作门槛。 五、产品推荐:2025年值得关注的工具 * 大厂产品:Gemini的Nano Banana(图像生成)、Perplexity的Comet浏览器(智能工作流)、ChatGPT的应用生态(第三方工具集成)。 * 初创工具:Crea:多模态创作平台,支持模型切换与元素复用,提升生成效率; ElevenLabs:音频生成工具,适配碎片化学习场景(如文档转语音); Gamma:AI幻灯片生成,支持文本/文档一键转换,灵活调整格式。 六、挑战与未知:算力瓶颈与社交化探索 * 算力分配矛盾:大厂需平衡模型训练与推理资源(如谷歌因Nano Banana爆红可能延缓新LLM研发进度),初创公司无此压力,更易聚焦应用创新。 * 社交化功能存疑:OpenAI的群聊、Sora的短视频社交尝试尚未突破“工具属性”,用户更倾向于在TikTok等平台消费AI内容,原生社交场景难以建立。 总结 2025年消费级AI市场印证“细节决定成败”,2026年将是多模态技术落地与垂直场景爆发的关键年。尽管ChatGPT仍居领先,但Gemini增长潜力可观,初创公司可通过差异化体验和专业工具开辟空间。 关注我的博客:硅谷声研所 更多问题可以联系:Nonecoco