

Andrej Karpathy:用LLM和一堆md文件来构建个人知识库前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 最近分享了他用 LLM 管理个人知识库的方法,引发广泛关注。这套玩法颠覆了传统的“AI 辅助”模式——你只管收集资料和提问题,剩下的组织、整理、维护全交给 LLM。 Karpathy 的工作流程是这样的:把所有源文档扔进 raw/目录,让 LLM“编译”成 wiki(一堆.md 文件),然后用 Obsidian 查看。关键是 wiki 里所有内容都是 LLM 写的和维护的,他基本不手动编辑。等 wiki 够大了(比如 100 篇文章、40 万字),就能问各种复杂问题,LLM 会去翻答案。他还让 LLM 跑“健康检查”,找数据不一致的地方、补缺失数据、发现新文章候选。 最狠的一句话:wiki 基本不用你手动编辑,那是 LLM 的地盘。知识库不再是你的笔记本,而是 AI 的工作台。每次问答都会增强知识库,形成正向循环,你的探索会积累,不会浪费。 Lex Fridman 回复说他做播客研究也这么干,证明这套方法真能落地。Karpathy 认为从个人脚本到产品,中间还有很大空间,应该有人做成真正的产品。 原文链接:x.com
2026中关村论坛圆桌:OpenClaw与AI开源-杨植麟、张鹏、罗福莉、夏立雪、黄超2026年3月27日,2026中关村论坛人工智能主题日举办了一场聚焦"OpenClaw与AI开源"的圆桌对话。本次圆桌由月之暗面创始人杨植麟主持,邀请了智谱AI CEO张鹏、无问芯穹CEO夏立雪、小米MiMo大模型负责人罗福莉,以及港大nanobot负责人黄超教授,从模型层、算力基础设施层到Agent应用层,全方位探讨了AI产业链的关键议题。 嘉宾观点 张鹏(智谱AI):阐述了GLM5 Turbo提价背后的商业逻辑——模型从聊天转向干活,完成复杂任务的token消耗量是简单问答的十倍甚至百倍,提价是回归商业价值的必然选择。他强调,长期低价竞争不利于行业健康发展,只有形成良性商业闭环才能持续优化模型能力。 夏立雪(无问芯穹):从基础设施视角指出,Agent时代的token用量正以每两周翻番的速度暴增。他提出需要构建"Agentic Infra"——为AI原生设计的基础设施,而非简单地在传统云计算架构上包一层。长远来看,基础设施本身也应成为智能体,实现自我进化。 罗福莉(小米MiMo):强调中国团队在模型结构创新上的优势,尤其是在算力受限条件下催生的高效架构创新。她认为long context efficient是Agent时代的核心竞争力,只有在超长上下文下做到低成本、高速度,才能激发模型完成真正高价值的复杂任务,甚至实现模型的自我迭代。 黄超(港大nanobot):从技术维度拆解了Agent的三大痛点——planning在复杂任务中的知识不足、memory的信息压缩与召回难题、以及skill生态的质量和安全隐患。他呼吁社区共同努力构建高质量的Agent生态。 最后,嘉宾们用一个词展望未来一年的趋势:黄超认为是“生态”,罗福莉提出“自进化”,夏立雪强调“可持续token”,张鹏则点出最根本的问题——“算力”。
杨植麟2026中关村论坛演讲:开源AI加速探索智能上限在2026年中关村论坛的单人演讲中,月之暗面创始人&CEO杨植麟指出大模型的本质是“能源向智能的有效规模化转化”。他强调,当前的竞争已从单纯的算力堆砌转向有效规模化(Effective Scaling),重点在于提升Token效率和长上下文处理能力。 演讲的核心技术亮点是Kimi k2.5提出的Agent集群(Agent Swarm)概念。类比于人类公司组织,k2.5通过并行调度成百上千个Agent协同工作,打破了单体模型处理复杂任务时时间成本呈指数级增长的困境,实现了任务执行效率的线性优化。 在架构创新上,杨植麟分享了Kimi最新的开源成果:通过将传统的注意力机制(Attention)从时间轴“旋转90度”应用到深度轴,结合改进的块状残差结构,以极低的额外计算成本(约2%)大幅提升了模型深度和性能,挑战了行业沿用十年的技术标准。 杨植麟预判AI研发范式正经历从“人工标注”到“强化学习”,再到“AI主导研究(AI-led Research)”的重大变革。未来的AI将自主合成任务、探索架构并定义奖励函数。通过开源K2.5等模型,月之暗面旨在降低全球开发者的智能获取门槛,共建开放生态。
林俊旸最新推文:从Reasoning Thinking到Agentic Thinking近日,阿里巴巴通义千问负责人林俊旸在离职风波后首次公开发声,发表了这篇题为《从“Reasoning” Thinking 到“Agentic” Thinking》的深度文章(原文链接:https://x.com/JustinLin610/article/2037116325210829168)。 作为亲历 OpenAI o1、DeepSeek R1 推理浪潮并主导 Qwen3 混合思考模式探索的核心人物,林俊旸在文中坦诚复盘了 Qwen 团队在“合并思考与指令”上遭遇的技术困境,并提出了一个大胆的判断:AI 竞争的下一个战场不在推理时长,而在智能体的行动能力。 文章系统梳理了 AI 发展的两个阶段。第一阶段是“推理思考”(Reasoning Thinking)时代——以 o1 和 R1 为代表,模型学会了“在回答之前思考”,通过更长的推理轨迹提升答案质量。但林俊旸指出,这种孤立的内部独白式推理正在遭遇瓶颈:Qwen3 试图统一思考与指令模式的努力最终失败,因为两种模式的数据分布和行为目标根本不同,强行合并只会导致双向平庸。 第二阶段是“智能体思考”(Agentic Thinking)时代——核心问题从“模型能思考多久”转变为“模型能否以维持有效行动的方式思考”。这要求模型不仅会推理,更要会决策、使用工具、感知环境反馈、在失败后修正计划。林俊旸认为,未来的竞争优势将来自环境设计、训练-推理解耦、框架工程,以及在模型决策与真实后果之间闭合循环的能力。 这是一次技术路线的重新定向,也是一个行业观察者从漩涡中心退出后的冷静判断。
Claude团队:如何设计可长时间运行的应用开发的Agent框架(Harness)Anthropic Engineering 近期发布的博客文章揭示了 AI 自主开发领域框架(Harness)设计的关键突破(https://www.anthropic.com/engineering/harness-design-long-running-apps)。 工程师 Prithvi Rajasekaran 在长达数月的研究中识别出两个核心障碍:其一是“上下文焦虑”现象——模型在长时任务中随着上下文窗口填充而逐渐失去方向感,导致过早收尾;其二是“自我评估失真”——AI 在评价自身输出时表现出系统性的过度自信,即便质量平庸也倾向于给予正面评价。 受生成对抗网络(GAN)架构启发,Prithvi 设计了一套生成器与评估器分离的多 Agent 框架。该方法的创新之处在于将执行与评判职能解耦:生成器负责创建输出,独立的评估器则依据明确的评分标准进行客观审查。这种对抗性反馈机制有效克服了 AI 的自我评估盲区。 研究首先在前端设计领域验证了该框架的有效性。通过定义设计质量、原创性、工艺和功能性四个维度的评分体系,评估器能够识别并惩罚“白色卡片配紫色渐变”等 AI 生成的典型模式,推动生成器产出更具创意的设计方案。在荷兰艺术博物馆网站案例中,系统在第十轮迭代时实现了质的飞跃——从常规布局转向具有 3D 空间感的沉浸式体验。 该方法随后扩展至全栈应用开发,形成规划器、生成器、评估器的三 Agent 架构。对比实验显示,完整框架虽然成本提升至 200 美元、耗时 6 小时,但相较于 9 美元、20 分钟的单 Agent 方案,输出质量实现了量级跃升——从功能残缺的原型进化为可实际使用的应用程序。这一研究为 AI 工程实践提供了重要启示:通过精心设计的框架结构,可以将现有模型的能力边界向外拓展,而非被动等待下一代模型的出现。
黄仁勋最新访谈:4万亿美元公司与AI革命(Lex Fridman播客#494)本期为美国知名播客 Lex Fridman 在2026年3月23日更新的最新一期跟NVIDIA CEO黄仁勋的深度访谈,题为“Jensen Huang: NVIDIA - The $4 Trillion Company & the AI Revolution ” 访谈链接:https://www.youtube.com/watch?v=vif8NQcjVf0 访谈从极致协同设计开始,黄仁勋详细解释了NVIDIA如何从芯片级扩展到机架级、数据中心级的系统工程,以及他独特的管理方式——60多位直接汇报者在同一个房间里共同攻克问题,实现真正的跨学科协同。 随后话题转向NVIDIA的演进历程。黄仁勋回顾了公司如何从游戏GPU起步,通过可编程着色器、FP32标准,最终走向CUDA。他坦承将CUDA放入GeForce是一个"接近生存威胁"的决策,消耗了公司所有毛利润,市值一度从80亿美元跌至15亿美元,但这个赌注最终为深度学习革命奠定了基础。 谈到供应链与能源挑战,黄仁勋分享了如何说服合作伙伴进行数十亿美元投资,以及他对电网闲置容量的创新思考。他高度赞扬了Elon Musk在xAI数据中心建设中的第一性原理思维。 访谈深入探讨了领导力与韧性。黄仁勋分享了他如何通过问题分解、快速分担负担和系统性遗忘来应对压力,以及"光速思维"——始终以物理极限为基准来评估一切决策。 最后,黄仁勋阐述了他对智能与人性的独特见解:智能将被商品化,真正重要的是品格、同情和慷慨。他对人类未来充满信心,相信疾病终结、污染减少等目标都在触手可及的范围内。
【彩蛋】这是一期主播的个人自述😄在这个播客里可能是非常少见的真人声音出场😄,跟大家聊聊做这个播客的初衷和一段时间来的心路历程,顺便也给主播的创业产品做一下硬广: YouNavi:一个可以一键整合你的所有录音上下文(包括各种会议软件和录音卡),本地文件夹的智能分析Agent,帮你做决策分析与洞察,产出有启发性的、有可落地性的建议,做你的私人幕僚。我们希望在这个效率至上的时代,给深思熟虑寻找一个位置。 如有兴趣请访问:https://younavi.me 邀请码:wizlog
Andrej Karpathy 最新访谈:代码Agent、自动化研究与 AI 的循环时代特斯拉前 AI 总监、OpenAI 创始成员 Andrej Karpathy 近日做客播客节目 NoPriors 中分享了他从 2025 年 12 月开始经历的"AI 精神错乱"状态。这位深度学习领域的先驱者坦言,他已经连续数月没有亲手写过一行代码,而是每天 16 小时向Agent表达意愿,让它们代为实现。这不是科幻,而是正在发生的现实——软件工程师的工作方式在 2025 年末发生了根本性转变。 访谈揭示了三个核心洞察: 首先,代码Agent让个人能力出现"解锁式"飞跃,瓶颈从打字速度转向了"token 吞吐量"和编排能力,这是一个典型的"技能问题"而非能力问题。 其次,Karpathy 展示了他用智能体打造的"家政小精灵 Dobby",它通过逆向工程控制了家中所有智能设备,预示着应用软件将被 API 端点和智能体粘合层取代。 第三,他提出了"自动化研究"(AutoResearch)的激进构想——研究组织可能只是一组 Markdown 文件,互联网上的分布式智能体集群甚至可能超越拥有万卡集群的前沿实验室。 访谈还探讨了 AI 能力的"参差不齐"现象、模型物种分化的可能性、开源与闭源的竞争态势,以及物理世界与数字世界发展速度的巨大差异。Karpathy 认为,数字空间将以"光速"重构,而物理世界会明显滞后。 这场对话为我们勾勒出一个正在到来的"循环时代"——人类的角色从执行者转变为编排者,从瓶颈转变为战略决策者。 原访谈链接:https://www.youtube.com/watch?v=kwSVtQ7dziU
杨植麟 2026 GTC演讲:How We Scaled Kimi K2.5(要点提炼版)2026 年 3 月 17 日,月之暗面创始人杨植麟作为唯一受邀的独立大模型公司代表,在英伟达 GTC 大会上发表了题为“How We Scaled Kimi K2.5”的主题演讲,首次系统性披露了 Kimi K2.5 背后的技术路线图。 本播客内容综合自数十个权威科技媒体的现场报道整理。由于演讲原稿未完全公开,部分内容为根据现场报道提炼的技术要点,并非逐字逐句的演讲原文,请大家注意: 杨植麟提出了一个颠覆性观点:当前 AI 发展的瓶颈不在于算力堆砌,而在于底层架构的陈旧。他指出,行业普遍使用的技术标准本质上是八九年前的产物,必须对优化器、注意力机制和残差连接等基础组件进行重构。 演讲围绕五大技术维度展开:MuonClip 优化器实现了 2 倍于 AdamW 的训练效率;Kimi Linear 架构让长上下文解码速度提升 5-6 倍;Orchestrator 编排器通过并行强化学习机制解决了多智能体“串行崩溃”难题;Vision RL 的跨模态训练反向提升了纯文本能力 1.7%-2.2%;注意力残差(AttnRes)重构带来 25% 的算力收益。 这场演讲引发了业界强烈反响。前 OpenAI 联合创始人 Andrej Karpathy 直言“我们对 Transformer 的理解还不够”,马斯克评价这项工作“令人印象深刻”。杨植麟的核心洞察是:将计算效率、长程记忆和自动化协作三个维度的技术增益相乘,才能实现智能水平的跨越式提升。 杨植麟承诺持续开源这些基础模块的重构成果,与全球 AI 社区共同推动技术边界。
OpenClaw 背后核心Agent框架: Pi 的创造者的AMA分享在 AI 编程工具百花齐放的今天,一个“什么都没有”的框架却在 GitHub 上收获了超过 24000 星——这就是 OpenClaw 背后的核心 Agent 框架 Pi-coding-agent。 Pi 由来自奥地利的资深开源开发者 Mario Zechner 创建,它的设计哲学与主流产品截然相反:系统提示词和工具定义加起来不到 1000 tokens,核心只有 read、write、edit、bash 四个工具,没有内置 plan mode、没有 to-do 系统、没有 MCP 支持、没有权限弹窗。 这种极简设计源于一个关键洞察:经过大量强化学习训练的模型,天然就知道 coding harness 是什么,不需要堆砌功能。Mario 认为应该把 LLM 当作“用自然语言编程的通用计算机”,状态序列化到磁盘文件中,从根本上绕过上下文衰减问题。 在最近的一场 AMA 活动中,Mario 与 Sentry 工程高级总监 Daniel、Pi 核心贡献者 Armen 深度探讨了极简设计背后的思考:为什么不支持 MCP、为什么拒绝 SubAgent、如何看待 AI 工具的“gaslight”现象、以及开源社区如何应对 AI 生成 PR 的挑战。 这场对话不仅揭示了 Pi 的设计哲学,更引发了对当下 Coding Agent 发展方向的深刻反思:我们真的需要那么多功能吗?确定性和可观测性是否比自动化更重要? 视频链接:https://www.youtube.com/watch?v=WQ-LOL6Iaio
Claude Code 构建者最新分享:我们如何使用 Skills这篇文章翻译自 Claude Code 团队核心成员 Thariq Shihipar 最近在 X 上发表的经验分享,原文标题为Lessons from Building Claude Code: How We Use Skills. 在 Anthropic 内部已经有数百个 Skills 在日常开发中被高频使用,作为 Claude Code 的构建者,Thariq 总结了一套写好 Skill 的最佳实践,比如如何利用文件夹结构、如何写“避坑指南”,以及团队内部该怎么分享和管理这些工具。 如果你在研究 Skill 机制并且想在 Agent 中用好它,这篇来自官方的一手经验非常有参考价值。它没有复杂的大词,全是可以直接借鉴的实用技巧。 原文链接:https://x.com/trq212/status/2033949937936085378
OpenAI 官方:Harness工程经验分享本文是来自 OpenAI 官方blog的真实工程实践分享。 在过去的五个月里,他们做了一个非常有趣的实验:完全不靠人类手写一行代码,只依靠自家的 Codex Agent,做出了一个包含上百万行代码的真实软件产品。 这篇文章详细记录了他们是怎么做到这一点的。当程序员不再需要亲自写代码,而是变成给 AI 搭建环境、定规则、建反馈循环的人时,整个开发流程会发生什么变化?他们遇到了哪些坑,又摸索出了哪些好用的方法? 从提示词(Prompt)工程到上下文(Context)工程再到Harness工程,这篇一线的经验分享非常有参考价值。 原文链接:openai.com
黄仁勋:GTC 2026大会主题演讲在刚刚举办的 2026 年 GTC 大会上,Nvidia 创始人兼 CEO 黄仁勋发表了主题演讲(https://www.youtube.com/watch?v=jIviHI7fqyc) 1 万亿美元的惊人预测 黄仁勋宣布,到 2027 年,全球 AI 计算需求将达到至少 1 万亿美元,是去年 5000 亿美元预测的两倍。这个惊人数字的背后,是 AI 技术从感知、生成到推理的三次关键跃迁,以及由此带来的计算需求百万倍级增长。推理拐点的到来意味着 AI 不再只是“理解”和“生成”,而是真正能够“思考”和“做工作”。 CUDA 20 年飞轮效应 演讲回顾了 CUDA 20 年来构建的强大飞轮效应:数亿装机量吸引海量开发者,开发者创造突破性算法,算法开辟新市场,新市场带来更大装机量。这个正向循环使 Nvidia 成为 AI 时代最低成本、最高信心的计算平台。黄仁勋强调,Nvidia 愿意培育和支持世界上每一个 GPU,因为装机量如此之大,每一次优化都能让数百万人受益。 三大技术拐点 演讲详细阐述了推动 AI 革命的三个关键节点:2023 年 ChatGPT 开启的生成式 AI 时代,随后 o1 模型带来的推理革命,以及 Claude Code 代表的 Agent 时代。这三次跃迁使 AI 从“理解世界”进化到“创造内容”,再到“独立完成工作”,彻底改变了计算的本质。过去两年,计算需求上升了 10,000 倍,使用量上升了 100 倍,整体感受是百万倍的增长。 垂直整合与水平开放 黄仁勋阐述了 Nvidia 独特的战略定位:世界上第一家垂直整合但水平开放的公司。Nvidia 必须深入理解应用、领域和算法,从芯片到系统到软件全栈优化,同时又与任何平台合作集成技术。这使得 Nvidia 能够服务于自动驾驶、金融服务、医疗保健、工业、机器人、电信等每一个垂直领域。 AI 工厂的新时代 演讲提出了“AI 工厂”这一革命性概念。不同于传统数据中心,AI 工厂是为生产智能而建,它 24/7 不间断地生产 token——文本、图像、视频、代码等任何 AI 可生成的内容。每个国家、每个行业、每个大公司都在建设自己的 AI 工厂,这正是 1 万亿美元需求的根本驱动力。 技术突破与生态合作 演讲展示了 Nvidia 在技术上的重大突破:Grace Blackwell NVLink 72 架构、NVFP4 精度、神经渲染技术、CUDF 和 CUVS 数据处理库。同时,Nvidia 与 IBM、Dell、Google Cloud、AWS、Microsoft Azure、Oracle 等全球顶级企业的深度合作,构建了覆盖全球的 AI 生态系统。 正如黄仁勋所言:“我们正处于一个历史性时刻,正在见证一个新工业革命的开始。”这场革命的速度更快、规模更大、影响更深远,因为 AI 不仅仅是一种技术,它是一种新的生产力、创造力和智能。
OpenAI官方播客: 构建更好的医疗AI( Building AI for better healthcare)在这期我们翻译的 OpenAI 官方播客(https://openai.com/podcast/#oai-podcast-episode-14)中,OpenAI 健康业务负责人 Nate Gross 博士和健康 AI 研究负责人 Karan Singhal 分享了他们构建 ChatGPT Health 背后的故事——一场关于如何让 AI 真正造福人类健康的实践探索。 最令人印象深刻的是他们的方法论:250 名医生深度参与模型训练的每个阶段,创建了 5,000 多个真实对话场景,设计了 49,000 个评估维度来打磨模型。这种“医生 + AI 研究员”的协作模式,让 ChatGPT Health 不仅能通过医学考试,更能理解患者的复杂性——知道何时该问、何时该答、何时该承认“我不知道”。 播客中提到的内罗毕临床研究案例尤其动人:当地诊所在使用 AI 辅助工具后,诊断和治疗错误显著减少。研究结束时,医疗团队甚至认为“让一组临床医生不使用 AI 是危险的”——这标志着 AI 已从“有趣的实验”转变为“不可或缺的安全网”。 从数据安全到自适应素养,从可穿戴设备整合到药物重新发现,这期播客展现了 OpenAI 在医疗领域的三大愿景:提高底线(让所有人都能获得 AI)、减少摩擦(减少医生行政负担)、提高天花板(推动医学突破)。每周 9 亿 ChatGPT 用户中,四分之一在咨询健康问题——这个数字本身就说明了 AI 医疗的未来已来。
Kimi研究团队:Attention Residuals(注意力残差) , 2026昨晚,Kimi 团队发布了一篇可能改写大模型架构范式的技术报告《Attention Residuals》(github.com),用动态注意力机制替换了大模型中沿用十年的标准残差连接。这项工作引发了 AI 圈的广泛关注——Andrej Karpathy 评价说“我们还没把‘Attention is All You Need’按字面意思理解透”,马斯克也留言称赞“Impressive work”。 传统残差连接本质上是固定权重的线性累加,所有层的输出以相同分量挤进主干路径,没有选择机制。这导致深层网络出现信息稀释、梯度分布不均、有效深度受限等问题。Kimi 团队提出的 Attention Residuals(AttnRes)打破了这一僵局:把深度轴变成可检索的特征空间,让模型根据当前输入主动调取之前的关键表征,而非被动接收所有历史信息。 为了工程落地,团队开发了分块注意力残差(Block AttnRes),将显存复杂度降到块数量级别,推理延迟开销控制在 2% 以内。在 480 亿参数的 Kimi Linear 架构上,用 1.4 万亿 Token 的实验显示:AttnRes 只需基准模型约 80% 的算力就能达到同样效果,相当于自带 1.25 倍算力优势。 值得一提的是,论文一作陈光宇今年 18 岁,加入团队才 5 个月,还是个准高三学生。前 OpenAI 核心研究员 Jerry Tworek 评价:“一切都需要被重新思考,深度学习 2.0 要来了。” 本期播客深入解读这项研究的技术细节、工程实现和对 Scaling Law 的影响,帮助你理解大模型架构演进的这次底层范式创新。