

OpenAI Town Hall with Sam Altman, 2026OpenAI 在北京时间 1 月 27 日上午 8 点办了场线上 Town Hall, Sam Altman 和团队直接跟开发者聊了一个多小时。这不是产品发布会,更像是在新工具开发前的一次摸底——你们到底需要什么? 会上讨论了不少实在的问题:软件工程师的工作会变成什么样、AI 创业公司怎么解决获客难题、模型该往通用还是专业方向走、成本和速度怎么平衡。Sam 花了不少时间讲 AI 安全,特别提到生物安全不能只靠"封堵"——这个比喻来自消防:我们不是禁止用火,而是学会了防火。也聊到了教育、个性化、人机协作这些话题。 原内容链接:https://www.youtube.com/watch?v=Wpxv-8nG8ec
2026 AGI-Next 前沿峰会 | 张钹院士:迈向通用人工智能嘉宾介绍:张钹院士是中国人工智能领域奠基者,中国科学院院士,清华大学计算机系教授、人工智能研究院名誉院长。他推动了中国 AI 领域多个 “第一”—— 发表国内首篇 AI 国际论文、创立首个智能机器人实验室、组建首个 AI 国家重点实验室。他曾获人工智能吴文俊最高成就奖、CCF 终身成就奖等重要荣誉,培养了大批 AI 领域顶尖人才,耄耋之年仍深耕科研一线,引领中国 AI 从跟跑迈向并跑、领跑。 在2026 AGI-Next 前沿峰会的压轴演讲中,张钹院士探讨了当前大语言模型(LLM)的局限性及其向通用人工智能(AGI)发展的路径。他强调LLM的语义定义不完备,导致五大缺失,并提出AGI需满足可执行、可检验的五项关键能力。最后,他重新定义了人工智能时代企业家的社会责任与使命。 大语言模型现状与局限 LLM的核心原理与能力 * LLM通过分布式语义原理,将语义定义为词语共现频率,使语言处理数学化、可计算化 * 在足够数据和上下文支持下,LLM能生成语义连贯、类人语言,趋近于语义关系理解和自反性思考 LLM的根本性缺失 * LLM模型是静态的,其语义定义不完备,导致五个关键缺失:指称、真知与因果、语用、多义与动态语境、闭环行为 * 这些缺失并非数据问题,而是模型近似性所致,影响了语言模型的实际应用效果 迈向通用人工智能(AGI) AGI的误解与重新定义 * 当前对AGI的定义存在误解,常被过度美化或模糊化,例如马斯克的定义不可执行、不可检验 * AGI应具备可执行、可检验的五项关键能力,以指导实际发展 AGI的五项关键能力 * 时空一致的多模态理解与落地:需解决不同模态时间节奏不同步的对齐难题 * 在线学习与适应:强调可控性,解决强化学习中目标收敛和过程不可控的问题 * 可检验的推理与长期规划:要求推理过程可检验,规划能实现长期执行 * 可检验的反思与元认知:反思需可回溯、可检验,而非仅凭感觉 * 跨任务的泛化能力:需实现跨任务强化,解决分布以外结构不一致的挑战 人工智能与人类社会 人工智能主体性与担忧 * 人工智能作为工具已实现,但未来可能成为规范与责任主体,甚至体验与意识主体 * 人类担忧人工智能超越自身成为新主体,引发如何共处、如何治理的深层问题 人工智能时代的治理与企业家责任 * 治理的重点不应仅是机器,更应是人类研究者和使用者 * 人工智能时代的企业家应重新定义价值创造,将知识转化为可复用工具,造福人类,并承担社会责任,实现普惠可持续增长
2026 AGI-Next 前沿峰会 | Qwen技术负责人林俊旸:Towards a Generalist Agent在2026 AGI-Next前沿峰会上,Qwen技术负责人林俊旸讲述了阿里Qwen团队在2025年的最新进展,重点介绍了其通用代理(Generalist Agent)的愿景。团队致力于多模态基础模型,旨在提升语言、视觉和音频的理解与生成能力,并通过开源策略推动技术普及和应用。 通用代理的演进 从模型到代理的理念转变 * 将模型视为工具使用者,强调其自主利用工具的能力,类似于人类与动物的区别 * 训练范式从监督学习转向强化学习,通过推理和评估驱动模型训练,实现数字和物理代理的广泛应用 模型开源与社区互动 * Qwen模型通过chat.qwen.ai平台提供开源和闭源模型的体验,聚合了多种模型功能 * 开源模型旨在降低研究门槛,特别是为资源有限的硕士生和博士生提供实验机会,促进学术研究 Qwen模型核心能力与进展 文本模型(Qwen-3系列) * Qwen-3系列显著提升了推理能力,能够更自然地整合思考过程到回答中 * 支持119种语言及方言,致力于服务全球用户,尤其关注数据收集困难的非洲语言 * 上下文长度扩展至百万级,内部已实现数百万,目标是无限长上下文以支持记忆管理和自我认知模型 编程模型(Qwen-Coder系列) * Qwen-Coder旨在成为软件工程师代理,能够处理GitHub issues并提交PR,实现多轮交互 * 在SWE-Bench和Terminal Bench等基准测试中表现出色,目标是更贴近实际生产任务 视觉语言模型(Qwen-VL) * 致力于实现人类水平的视觉理解,甚至超越人类在细节识别方面的能力 * 提升了对电脑和手机的操控能力,并支持图像或视频作为编程输入,减少对文本Prompt的依赖 * 探索视频理解,特别是第一人称视角(egocentric video),以构建对物理世界的深层理解 多模态生成与未来展望 图像生成与编辑(Qwen-Image) * Qwen-Image在图像生成方面取得显著进步,生成的图像接近真实,尤其在自然度和文字生成方面表现突出 * 图像编辑功能强大,能够精确调整图像元素,如光线和物体位置,满足用户P图需求 音频理解与生成(Qwen-Audio) * 采用thinker和talker架构,实现端到端的听与说能力,目标是文本和语音能力的平衡 * 支持声音定制和通过Prompt描述声音特征,实现更自然的语音交互 全模态融合与强化学习 * 目标是实现文本、视觉、音频的“三进三出”的全模态模型,结合理解与生成能力 * 强调强化学习在未来模型训练中的重要性,通过环境反馈实现长期推理和任务加速 * 代理将走向虚拟和物理世界,通过将自然语言指令转化为可执行动作,实现数字代理和机器人控制
2026 AGI-Next 前沿峰会 | 月之暗面杨植麟:Kimi K2的Scaling实践在2026 AGI Next 前沿峰会的演讲中,月之暗面(Moonshot AI)创始人兼 CEO 杨植麟深度剖析了 Kimi 模型背后的技术演进与哲学思考: * 他重申 Scaling Law是大模型发展的第一性原理,本质上是将能源高效转化为智能的过程。 * 演讲的核心亮点在于对模型架构与 Agent 智能关系的拆解。杨植麟指出,Transformer 架构之所以取代 LSTM 成为主流,关键在于其在 长上下文(Long Context) 任务中展现出的低位置损失(Position Loss),这正是构建能够处理复杂任务的 Agent 的基石。为了突破现有极限,杨植麟重点介绍了两项关键技术创新: * MIO 二阶优化器:相比主流的 Adam 优化器,它能以 50% 的算力消耗达到同等训练效果,显著提升了 Scaling 效率。 * Kimi Linear 架构:通过创新的线性注意力机制,成功解决了传统线性注意力在长距离任务掉点的问题,兼顾了极长的上下文窗口与极高的推理速度。 * 杨植麟认为,Agent 的本质是在解空间中进行搜索,而优秀的预训练模型提供了关键的先验知识。面对 AGI 的未来,他强调智能应当具备独特的“品味”(Taste),且是非同质化的。尽管技术伴随风险,但他主张积极探索,将 AGI 视为拓展人类认知边界、提升文明上限的关键钥匙。
腾讯姚顺雨、Qwen林俊旸、智谱唐杰的AGI-Next圆桌对话, 20262026年1月10日在中关村国际创新中心举行的AGI-Next 闭门峰会汇集了中国 AI 行业全明星阵容(三场报告分别来自智谱唐杰、月之暗面杨植麟、Qwen 林俊旸;一场圆桌:智谱唐杰、港科大杨强教授、Qwen林俊旸、腾讯姚顺雨) 以下为其中圆桌讨论的录音内容,主要讨论了四个核心问题:分化、范式、Agent、中国AI的胜算 圆桌嘉宾 * 唐杰:清华大学计算机系教授,智谱AI首席科学家/创始人 * 杨强:前港科大学计算机系主任,加拿大工程院 / 皇家科学院两院院士,联邦学习领域奠基人 * 林俊旸:阿里巴巴通义千问系列大模型技术负责人,Qwen 开源模型主导者,阿里最年轻 P10 * 姚顺雨:腾讯 CEO / 总裁办公室首席 AI 科学家(兼任 AI Infra 部、大语言模型部负责人),前 OpenAI 研究员,ReAct 范式第一作者、SWE-agent 核心开发者 主持人 * 李广密:拾象科技CEO,前红杉中国投资人
Thariq Shihipar:官方解构 Claude Agent SDK内核在过去的一年中,Anthropic 的 Claude Code 可以算是首个真正意义上被广泛应用的 Agent 产品,它能够自主构建上下文、决策执行路径并在长达数十分钟的交互中持续工作,并且不单单只能完成Coding工作。基于构建与运营 Claude Code 的经验,Anthropic 推出了 Claude Agent SDK。这个SDK 并非一个简单的工具集,而是一套完整的、观点鲜明的 Agent 构建套件,它封装了模型、工具、提示工程、文件系统交互、技能(Skills)和安全沙箱等核心组件。 以下内容来自Thariq Shihipar(Anthropic 创始团队成员,Claude agent SDK 的核心负责人)的官方技术分享(Claude Agent SDK [Full Workshop] — Thariq Shihipar, Anthropic)。构建一个强大的 AI Agent 到底需要什么? Thariq 给出了一个有趣的答案:作为 Unix /Linux 基本元素的 Bash 工具和文件系统。 原视频链接:www.youtube.com
知名AI教育家Sebastian Raschka的2025 年大语言模型发展报告知名AI专家、《从零开始构建大语言模型》作者Sebastian Raschka博士的2025年度回顾。文章深入剖析了这一年大语言模型领域的重大突破:DeepSeek R1开启推理模型新纪元,RLVR与GRPO技术革新训练范式,顶尖模型训练成本降至500万美元级别。作者系统梳理了从RLHF到GRPO的技术演进路径,探讨了基准测试困境、AI与人类协作的平衡之道,并预测2026年RLVR将扩展至更多领域、推理时扩展成为关键。文章不仅涵盖技术前沿,更分享了作者作为独立研究者的实践心得与对AI可持续使用的深刻思考。这是一份兼具深度与广度的年度技术总结,适合所有关注AI发展的读者。 原文地址:https://magazine.sebastianraschka.com/p/state-of-llms-2025
吴恩达的2025年度AI学习建议&AI行业回顾以下内容是吴恩达(Andrew Ng)在deeplearning.ai《The Batch》周刊特别版的全文翻译,内容涵盖了对 AI 学习的建议以及对 2025 年 AI 行业重大事件的回顾。 原文:https://www.deeplearning.ai/the-batch/issue-333/
英伟达机器人主管Jim Fan的2025年度具身智能总结英伟达机器人主管Jim Fan近日在X上对2025年具身智能行业的工作做了年度回顾,表达了机器人领域仍处于蛮荒时代、当前机器人硬件可靠性不足,反而限制了软件的迭代速度,以及主流的VLM→VLA技术范式本身也存在结构性问题等观点。 原文链接:https://x.com/DrJimFan/status/2005340845055340558 以下是全文: 所有人都在为“氛围编码”(vibe coding)而疯狂。趁着节日气氛,也请允许我分享一下我对机器人这个“西部荒野”领域的焦虑。以下是我在 2025 年学到的三条教训: 1. 硬件领先于软件,但硬件可靠性严重限制了软件的迭代速度。 我们已经看到了像 Optimus、新版 Atlas、Figure、Neo 和 G1 等精湛的工程艺术品。然而,我们最顶尖的 AI 还没能榨干这些前沿硬件的全部潜力——身体的机能远强于大脑的指挥能力。 但是,照看这些机器人需要一整个运营团队。与人类不同,机器人的“淤青”无法自愈。过热、电机损坏、诡异的固件问题每天都在困扰着我们。在这里,错误是不可逆且无法容忍的。 在这个过程中,唯一得到规模化增长(Scale)的只有我的耐心。 2. 机器人领域的基准测试(Benchmarking)依然是一场史诗级灾难。 大模型圈的人觉得 MMLU 和 SWE-Bench 是常识。但在机器人领域,请收起这种想法。没人能在任何事情上达成共识:无论是硬件平台、任务定义、评分准则、模拟器,还是真实世界的设置。按照定义,每个人在自己为发布新闻而临时定义的基准测试中,都是“行业最高水平”(SOTA)。每个人都在从 100 次尝试中挑选最漂亮的那次演示。 作为一个领域,我们在 2026 年必须做得更好,不能再把“可重复性”和“科学严谨性”当成二等公民。 3. 基于 VLM 的 VLA 模型感觉不对劲。 VLA 代表“视觉-语言-动作”模型,一直是机器人大脑的主流方案。其配方很简单:取一个预训练好的 VLM(视觉语言模型)检查点,然后在上面嫁接一个动作模块。 但仔细想想,VLM 是为了在“视觉问答”等基准测试中登顶而过度优化的。这意味着两个问题: * 参数分配不均:VLM 中的大多数参数是为了语言和知识服务的,而不是为了物理规律; * 特征丢失:视觉编码器在主动学习如何“丢弃”底层细节,因为问答只需要高层级的理解。然而,对于精细操作(Dexterity)来说,微小的细节至关重要。 VLA 的性能没有理由随着 VLM 参数的规模化而同步提升。预训练的目标错位了。视频世界模型(Video World Model)似乎是机器人策略更好的预训练目标。我在此押下重注。
Google AI的2025年度回顾Google官方博客在12月23日更新了2025年的整体回顾,由首席科学家Jeff Dean和DeedMind CEO Demis Hassabis共同执笔。 原文链接:https://blog.google/technology/ai/2025-research-breakthroughs/#ai-models 以下是全文翻译 Google 2025年度回顾:8大领域的研究突破 这一年是 AI 智能体、推理能力和科学发现突飞猛进的一年。 2025年是研究领域取得非凡进展的一年。随着人工智能的发展,我们看到它的轨迹正从一种“工具”转变为一种“公用设施”:从人们使用的东西变成了可以为人们工作的东西。如果说 2024 年是为这一时代奠定多模态基础的一年,那么 2025 年则是 AI 开始真正思考、行动并与我们一起探索世界的一年。在量子计算方面,我们在实际应用方面取得了进展。纵观全局,我们帮助将研究转化为现实,推出了更强大、更有用的产品和工具,对人们当下的生活产生积极影响。 以下是 Google、Google DeepMind 和 Google Research 在这充满不懈进步的一年中所取得的一些突破、产品发布和科学里程碑的回顾。 1. 在世界级模型上实现突破 今年,我们在推理、多模态理解、模型效率和生成能力方面取得了重大突破,显著提升了模型能力。这一进程始于 3 月发布的 Gemini 2.5,并在 11 月 Gemini 3 和 12 月 Gemini 3 Flash 的发布中达到高潮。 Gemini 3 Pro 建立在最先进的推理基础之上,是我们迄今为止最强大的模型,旨在帮助你实现任何想法。它在 LMArena 排行榜上名列前茅,并在 Humanity’s Last Exam(一项旨在测试 AI 是否能像人类一样真正思考和推理的极高难度测试)和 GPQA Diamond 等基准测试中取得了突破性高分,重新定义了多模态推理。它还为前沿模型在数学领域树立了新标准,在 MathArena Apex 上达到了 23.4% 的新高。随后我们推出了 Gemini 3 Flash,它结合了 Gemini 3 Pro 级的推理能力与 Flash 级的低延迟、高效率和低成本,使其成为同等规模下性能最强的模型。Gemini 3 Flash 的质量超越了我们之前的 Gemini 2.5 Pro 级模型,而价格却只有其一小部分,延迟也大幅优化,延续了我们 Gemini 时代的趋势:“下一代的 Flash 模型优于上一代的 Pro 模型”。 我们致力于通过最先进的开放模型让有用的 AI 技术触手可及。我们构建了 Gemma 系列模型,使其轻量化并开放供公众使用;今年我们引入了多模态能力,显著增加了上下文窗口,扩展了多语言能力,并提高了效率和性能。 2. 利用 AI 创新和变革产品 整个 2025 年,我们继续推动 AI 从工具向公用设施的转变,利用强大的新智能体能力(agentic capabilities)彻底改变了我们的产品组合。我们重塑了软件开发,不再局限于辅助编码的工具,而是引入了与开发者协作的强大智能体系统。其中的关键进展,例如 Gemini 3 令人印象深刻的编码能力以及 Google Antigravity 的发布,标志着 AI 辅助软件开发进入了一个新时代。 这种演变在我们的核心产品中也显而易见,从 Pixel 10 上的 AI 功能和 Search(搜索)中 AI Mode 的更新,到 Gemini app 和 NotebookLM 等 AI 优先的创新产品(后者获得了 Deep Research 等高级功能)。 3. 赋能创意与 AI 共创 2025 年对于生成式媒体来说是变革性的一年,它赋予了人们前所未有的新能力来实现他们的创意抱负。用于视频、图像、音频和虚拟世界的生成式媒体模型和工具变得更加有效并被广泛使用。其中,爆款产品 Nano Banana 和 Nano Banana Pro 为原生图像生成和编辑提供了前所未有的能力。我们与创意产业人士合作开发了 Flow 和 Music AI Sandbox 等工具,使其对创意工作流更有帮助。我们在 Google Arts & Culture 实验室推出了新的 AI 驱动体验,在 Gemini 应用中对图像编辑进行了重大升级,并推出了 Veo 3.1、Imagen 4 和 Flow 等强大的新生成式媒体模型,从而扩展了人们的创意可能性。 随着研究突破不断扩展 AI 的能力,Google Labs 成为了我们在开发过程中分享 AI 实验的地方——倾听用户反馈并在学习中进化。今年 Labs 中一些最吸引人的实验包括:Pomelli,一个用于制作符合品牌调性的营销内容的 AI 实验;Stitch,引入了一种在几分钟内将提示词和图像输入转化为复杂 UI 设计和前端代码的方法;Jules,一个充当开发者合作伙伴的异步编码智能体;以及 Google Beam,一个利用 AI 推进远程呈现可能性的 3D 视频通信平台。 4. 推进科学与数学 2025 年也是 AI 推动科学进步的丰收年,我们在生命科学、健康、自然科学和数学领域均取得了突破。 在这一年里,我们在构建 AI 资源和工具方面取得了进展,这些工具赋能研究人员,帮助他们在医疗健康领域理解、识别和开发治疗方法。在基因组学领域(我们已将先进技术应用于该领域研究长达 10 年),我们超越了测序,利用 AI 来解读最复杂的数据。我们还迎来了 AlphaFold 的 5 周年纪念,这个获得诺贝尔奖的 AI 系统解决了困扰科学界 50 年的蛋白质折叠问题。AlphaFold 已被 190 多个国家的 300 多万研究人员使用,其中包括中低收入国家的 100 多万用户。 Gemini 先进的思维能力(包括 Deep Think)也推动了数学和编码领域的历史性进展。Deep Think 能够解决需要深度抽象推理的问题——在两项国际竞赛中达到了金牌标准。 5. 塑造计算与物理世界的创新 我们也正在引领重大发现,并在量子计算、能源和“登月计划”等领域塑造科学的未来。这一领域的研究吸引了前所未有的公众关注,正如 Quantum Echoes 所展示的那样,我们在量子计算的实际应用方面取得了进展。值得注意的是,Google 员工 Michel Devoret 与前 Google 员工 John Martinis 以及加州大学伯克利分校的 John Clarke 因其 20 世纪 80 年代的基础性量子研究,共同获得了 2025 年诺贝尔物理学奖。 2025 年,我们继续推进支撑我们 AI 的核心基础设施,专注于硬件设计的突破和能源效率的提升。这包括推出了 Ironwood,这是一款为推理时代打造的新型 TPU,它是利用一种名为 AlphaChip 的方法设计的。同时,我们也致力于衡量我们技术的环境影响。 我们在机器人和视觉理解方面的工作将 AI 智能体带入了物理和虚拟世界,其中包括基础性的 Gemini Robotics 模型、更复杂的 Gemini Robotics 1.5,以及作为通用世界模型新前沿的 Genie 3 的推出。 6. 应对全球挑战与机遇 我们在 2025 年的工作表明,AI 驱动的科学进步正被直接应用于解决世界上最关键和普遍的挑战。通过利用最先进的基础模型和智能体推理,我们正在显著加深对地球及其系统的理解,同时在气候适应能力、公共卫生和教育等对人类繁荣至关重要的领域提供有影响力的解决方案。 例如,我们正在使用最先进的基础模型和智能体推理来帮助加深对地球的理解,从而赋能那些正在改善人们当下生活的工作,从天气预报到城市规划再到公共卫生。例如,我们的洪水预报信息现在覆盖了 150 个国家超过 20 亿人,用于预警严重的河流洪水。我们最先进、最高效的预报模型 WeatherNext 2 生成预报的速度快了 8 倍,分辨率高达 1 小时。利用这项技术,我们通过实验性的气旋预测支持气象机构基于一系列情景做出决策。 我们正在与合作伙伴合作,将 AI 驱动的科学进步应用到更贴近患者的地方,开辟疾病管理和治疗发现的新途径。 AI 正被证明是教育领域的强大工具,通过 LearnLM 和 Gemini 中的 Guided Learning(引导式学习)等计划,它实现了新的理解形式并拓展了好奇心。我们将 Gemini 最强大的翻译能力带到了 Google 翻译中,实现了更智能、更自然、更准确的翻译,并试点了新的语音到语音翻译功能。 7. 优先考虑责任与安全 我们将研究突破与严谨且前瞻性的责任和安全工作相结合。随着我们的模型能力越来越强,我们不断推进和演变我们的工具、资源和安全框架,以预测和减轻风险。Gemini 3 展示了这一方法的实际应用:它是我们迄今为止最安全的模型,并经历了 Google 所有 AI 模型中最全面的安全评估。我们还在向更远处展望,探索通往 AGI的负责任路径,优先考虑准备工作、主动风险评估以及与更广泛的 AI 社区合作。 8. 引领与行业、学术界和公民社会的边际合作 负责任地推进 AI 前沿需要社会各界的合作。2025 年,我们与领先的 AI 实验室合作,协助成立了 Agentic AI Foundation(智能体 AI 基金会),并支持开放标准以确保智能体 AI 拥有一个负责任且可互操作的未来。在教育方面,我们与迈阿密戴德县等学区以及 Raspberry Pi 等教育团体合作,为学生提供 AI 技能。我们与加州大学伯克利分校、耶鲁大学、芝加哥大学等多所大学的研究合作伙伴关系,对今年一些最令人兴奋的前沿研究起到了关键作用。我们还与美国能源部的 17 个国家实验室合作,改变科学研究的进行方式。此外,我们正在与电影制作人和其他富有远见的创意人士合作,将最好的 AI 工具交到他们手中,探索 AI 时代的叙事方式。 展望未来 当我们展望 2026 年时,我们期待继续安全、负责任地推进前沿技术,造福人类。
Jeff Dean、Noam Shazeer等Google AI 核心人物对谈, 2025本次分享内容来自Gemini 3 Flash模型发布后的2025年12月19日,Google AI的几位核心人物——DeepMind研究副总裁Oriol Vinyals、谷歌首席科学家Jeff Dean和Noam Shazeer,以及Google AI Studio产品负责人Logan Kilpatrick的一次同台对谈。地址:x.com 主要内容: 1. Gemini 项目的起源与团队融合 * 统一战线: Jeff Dean 提到 Gemini 起源于对 Google 内部资源碎片化的观察。为了集中算力和顶尖人才,Google 将原有的 Brain 团队和 DeepMind 合并,形成了统一的 Gemini 团队。 * 文化互补: 团队结合了 Brain 团队“自下而上”的创新风格与 DeepMind 针对宏大目标(如 AlphaFold)“自上而下”的严谨执行力。 2. Gemini 3 的核心技术逻辑 * “双重按钮”: 成功的秘诀在于同时加大预训练(Pre-training)和后训练(Post-training)的投入。 * 蒸馏技术(Distillation): Gemini 3 Flash 的成功很大程度上归功于完美的蒸馏技术,使得较小的模型能达到甚至超越前代 Pro 模型的智能水平。 * 全栈优势: Google 自研的 TPU 基础设施是支撑 Gemini 大规模训练与低延迟推理的关键,解决了算力瓶颈。 3. 突破性进展:从基础到竞赛级智能 * 可验证领域的飞跃: 负责人指出,在数学(IMO 金牌)和编程等“可验证领域”,通过强化学习(RL)和后训练,模型取得了惊人的进步。 * 延迟即质量: Jeff 强调低延迟对用户体验至关重要。Flash 模型通过架构优化实现了极速响应,这不仅提升了用户留存,也为未来的机器人控制奠定了基础。 4. 未来五年:迈向 AGI 的关键路径 * 持续学习(Continual Learning): 现有的模型在部署后权重即冻结。Oriol 认为未来的模型应该像人类一样,在交互中持续学习和进化。 * 超越“预测下一个词”: Jeff 提出目前的预训练效率较低(人类只需 10 亿 token 就能变得聪明,而模型需要数万亿)。未来研究将探索让模型在环境中通过“采取行动并观察结果”来学习,而非仅仅是被动地流式读取数据。 * 长上下文(Long Context): 团队正在探索如何让用户感知到“无限”的上下文,使模型能够同时处理和理解互联网规模的数据或海量视频。
Andrej Karpathy:LLM的2025 年度盘点本次内容是Andrej Karpathy对2025年AI行业的年度盘点。 原文地址:https://karpathy.bearblog.dev/year-in-review-2025/ 主要内容: * 可验证奖励的强化学习(RLVR) * 「召唤幽灵」vs「培育动物」/ 参差不齐的智能:探讨了即使在所有基准测试都表现出色,也可能未实现 AGI 的情况。 * Cursor / LLM 应用的新层级 * Claude Code / 住在你电脑里的 AI * 氛围编程(Vibe Coding) * Nano Banana / LLM 的图形界面 插图:
逆向工程拆解ChatGPT的记忆功能,Manthan Gupta 2025看到一位印度的AI工程师Manthan Gupta 通过逆向工程拆解了 ChatGPT 的记忆功能。(原文地址:manthanguptaa.in ) 你会发现大道至简,作为大家公认实现得相对较好的记忆系统,ChatGPT没有用 RAG,而且就几层大家都能想到的信息一起输入: 1.会话元数据:时间、设备、是否付费、活跃度等等 2.当前会话窗口的最新会话和所有历史会话记录(超 token 限制的话截断) 3.跨会话窗口的 15 条左右历史会话摘要,只总结用户提问,不总结模型回答 4.user profile 级别的全局记忆,大概几十条,按照特定要求记录的用户姓名职业兴趣等长期事实,或者用户明确要求记录的东西 以下是原文的详细翻译: 我逆向工程了 ChatGPT 的记忆系统,这是我的发现! 作者:Manthan Gupta | 日期:2025年12月9日 当我询问 ChatGPT 记得关于我的什么信息时,它列出了 33 件事,从我的名字、职业目标到目前的健身习惯。它是如何存储和检索这些信息的?为什么感觉如此无缝? 经过大量的实验,我发现 ChatGPT 的记忆系统比我预期的要简单得多。没有向量数据库。没有基于对话历史的 RAG(检索增强生成)。 相反,它使用了四个独特的层级:适应你环境的会话元数据、长期存储的显式事实、近期聊天的轻量级摘要以及当前对话的滑动窗口。 这篇博客将详细拆解每一层是如何工作的,以及为什么这种方法可能优于传统的检索系统。这里的所有内容都来自于通过对话逆向工程 ChatGPT 的行为。OpenAI 并没有公开这些实现细节。 ChatGPT 的上下文结构 (Context Structure) 在理解记忆之前,重要的是要理解 ChatGPT 在处理每一条消息时接收到的完整上下文。结构如下: * [0] 系统指令 (System Instructions) * [1] 开发者指令 (Developer Instructions) * [2] 会话元数据 (Session Metadata)(临时性的) * [3] 用户记忆 (User Memory)(长期事实) * [4] 近期对话摘要 (Recent Conversations Summary)(过去的聊天,标题 + 片段) * [5] 当前会话消息 (Current Session Messages)(本次聊天) * [6] 你最新的消息 前两个组件定义了高层行为和安全规则,不是本博客的重点。有趣的部分从会话元数据开始。 会话元数据 (Session Metadata) 这些细节在会话开始时注入一次。它们不会被永久存储,也不会成为长期记忆的一部分。这一块包括: * 设备类型(桌面/移动端) * 浏览器 + 用户代理 (User agent) * 大致位置/时区 * 订阅等级 * 使用模式和活动频率 * 近期模型使用分布 * 屏幕尺寸、深色模式状态、JS 启用状态等 会话元数据的示例: Plaintext Session Metadata:- User subscription: ChatGPT Go- Device: Desktop browser- Browser user-agent: Chrome on macOS (Intel)- Approximate location: India (may be VPN)- Local time: ~16:00- Account age: ~157 weeks- Recent activity:- Active 1 day in the last 1- Active 5 days in the last 7- Active 18 days in the last 30- Conversation patterns:- Average conversation depth: ~14.8 messages- Average user message length: ~4057 characters- Model usage distribution:* 5% gpt-5.1* 49% gpt-5* 17% gpt-4o* 6% gpt-5-a-t-mini* etc.- Device environment:- JS enabled- Dark mode enabled- Screen size: 900x1440- Page viewport: 812x1440- Device pixel ratio: 2.0- Session duration so far: ~1100 seconds 这些信息帮助模型根据你的环境调整回答,但在会话结束后,这些信息都不会保留。 用户记忆 (User Memory) ChatGPT 有一个专门的工具用来存储和删除关于用户的稳定的、长期的事实。这些是数周和数月积累下来的片段,形成了一个持久的“档案”。 在我的例子中,模型存储了 33 个事实——比如: * 我的名字、年龄 * 职业目标 * 背景和过去的职位 * 当前项目 * 我正在研究的领域 * 健身习惯 * 个人偏好 * 长期兴趣 这些不是猜测出来的;只有在以下情况时它们才会被显式存储: 1. 用户说“记住这个”或“把这个存入记忆”;或者 2. 模型检测到一个符合 OpenAI 标准的事实(如你的名字、职位或陈述的偏好),并且用户通过对话隐含地同意了。 这些记忆作为一个单独的块被注入到每一个未来的提示词 (Prompt) 中。 如果你想添加或删除任何内容,只需说: * “把这个存入记忆……” * “从记忆中删除这个……” 示例: * 用户的名字是 Manthan Gupta。 * 曾在 Merkle Science 和 Qoohoo (YC W23) 工作。 * 偏好通过视频、论文和动手实践混合的方式学习。 * 构建了 TigerDB, CricLang, Load Balancer, FitMe。 * 正在研究现代信息检索系统 (LDA, BM25, 混合检索, 稠密嵌入, FAISS, RRF, LLM 重排序)。 近期对话摘要 (Recent Conversations Summary) 这一部分最让我惊讶,因为我原以为 ChatGPT 会在过去的对话中使用某种 RAG。结果它使用的是一个轻量级摘要。 ChatGPT 按照这种格式保留了一份近期对话摘要的列表: 1. <时间戳>: <聊天标题> |||| 用户消息片段 |||| |||| 用户消息片段 |||| 观察: * 它只总结我的消息,不总结助手的。 * 大约有 15 个摘要可用。 * 它们充当了我近期兴趣的粗略地图,而不是详细的上下文。 这个块让 ChatGPT 在不拉取完整记录的情况下,拥有跨聊天的连续感。 传统的 RAG 系统需要: * 嵌入 (Embedding) 每一条过去的消息 * 对每个查询运行相似性搜索 * 拉取完整的消息上下文 * 更高的延迟和 Token 成本 ChatGPT 的方法更简单:预计算轻量级摘要并直接注入。这是用详细的上下文换取速度和效率。 当前会话消息 (Current Session Messages) 这是目前对话的常规滑动窗口。它包含本次会话中交换的所有消息的完整历史记录(未摘要)。 我无法从 ChatGPT 那里套出确切的 Token 限制,但它确实确认了: * 上限基于 Token 数量,而不是消息条数。 * 一旦达到限制,当前会话中较旧的消息会被移出(但记忆事实和对话摘要保留)。 * 这个块中的所有内容都逐字传递给模型,保持完整的对话上下文。 这就是允许助手在一次会话中连贯推理的原因。 这一切是如何协同工作的 当你向 ChatGPT 发送消息时,会发生以下情况: 1. 会话开始:会话元数据被注入一次,给 ChatGPT 提供关于你的设备、订阅和使用模式的上下文。 2. 每一条消息:你存储的记忆事实(我这里是 33 条)总是包含在内,确保回答符合你的偏好和背景。 3. 跨聊天感知:近期对话摘要提供了你兴趣的轻量级地图,而无需拉取完整的记录。 4. 当前上下文:当前会话消息的滑动窗口保持对话内的连贯性。 5. Token 预算:随着会话增长,旧消息会被移出,但你的记忆事实和对话摘要保留,保持连续性。 这种分层方法意味着 ChatGPT 可以让人感觉是个性化且具有上下文感知的,而没有搜索成千上万条过去消息的计算成本。 结论 ChatGPT 的记忆系统是一个多层架构,平衡了个性化、性能和 Token 效率。通过结合临时的会话元数据、显式的长期事实、轻量级对话摘要和当前消息的滑动窗口,ChatGPT 实现了一些了不起的事情:它让人感觉个性化且具有上下文感知,却没有传统 RAG 系统的计算开销。 这里的关键洞察是,并非所有东西都需要成为传统意义上的“记忆”。 * 会话元数据实时适应你的环境。 * 显式事实跨会话持久存在。 * 对话摘要提供没有细节的连续性。 * 当前会话保持连贯性。 这些动态组件结合在一起——随着会话进行和你的偏好演变而更新——创造了一个真正了解你的系统的错觉。 对于用户来说,这意味着 ChatGPT 随着时间的推移会感觉越来越个性化,而无需显式的知识库管理。对于开发者来说,这是实用工程的一课:有时更简单、更精心策划的方法胜过复杂的检索系统,尤其是当你控制整个流程时。 权衡是显而易见的:ChatGPT 牺牲了详细的历史背景来换取速度和效率。但对于大多数对话来说,这正是恰当的平衡。系统记住了重要的事情(你的偏好、目标和近期兴趣),同时保持快速和响应灵敏。 (注:本博文基于通过对话进行的实验和逆向工程,非官方文档——请辩证看待。)
Sam Altman写于OpenAI成立十周年的公开信:Ten Years, 2025OpenAI成立十周年之际,Sam Altman 写了一封公开信《Ten Years》 原文链接:https://openai.com/index/ten-years/
Manus关于Agent上下文工程的实践经验分享, 2025Manus一直是我们构建AI Agent道路上的好老师,2025年10月Manus的首席科学家Peak Ji(季逸超)和LangChain的创始工程师Lance之间进行了一次深度交流,他们系统性地梳理了上下文工程的核心概念、主流技术框架,并深入分享了Manus AI在构建生产级AI Agent 过程中的前沿实践、创新方法和核心开发哲学。 完整视频链接:bilibili.com 核心要点 * 上下文工程是为解决AI Agent在长时间自主运行中产生的“上下文爆炸”和“上下文腐烂”问题而生的核心学科,其重要性远超传统的提示工程。 * 分层缩减策略:Manus AI采用一种精细化的两阶段上下文缩减策略,优先使用无损、可逆的“紧凑化”(Compaction),仅在必要时才采用有损、不可逆但基于结构化模式(Schema)的“总结”(Summarization)。 * 创新的分层动作空间:为解决工具过载问题,Manus AI设计了三层动作空间:少量核心原子函数、通过Shell访问的沙箱实用程序、以及用于复杂计算的脚本与API。此举在保持核心接口简洁的同时,实现了近乎无限的能力扩展。 * 两种Multi-Agent协作模式:根据任务特性,Manus AI采用两种不同的Multi-Agent隔离与通信模式:“通过通信来共享内存”(适用于简单、独立的子任务)和“通过共享内存来通信”(适用于需要完整历史背景的复杂任务)。 * 结构化输出是稳定性的基石:无论是在上下文总结还是Agent 间通信中,Manus AI都广泛使用结构化输出(Schema)作为“契约”,以确保信息传递的稳定、完整和无损。 * 核心开发哲学——“少构建,多理解”:报告强调,最高效的Agent 架构源于简化而非复杂化。开发者应避免过度工程,更多地信任并理解模型本身,通过简化架构来构建更稳定、更智能的系统。