
2025-The Year AI Reasoning Became JaggedIn 2025, the artificial intelligence landscape shifted toward Reinforcement Learning from Verifiable Rewards (RLVR) and agentic AI, moving beyond passive text generation to autonomous, goal-oriented problem solving. This technical pivot rendered traditional benchmarks obsolete, leading to the creation of "Humanity’s Last Exam," a rigorous evaluation designed to test expert-level reasoning. The industry was significantly disrupted by the DeepSeek-R1 model, which proved that frontier-level performance could be achieved at a fraction of the traditional cost, challenging the dominance of high-expenditure firms like OpenAI and NVIDIA. Meanwhile, Big Tech expanded through strategic partnerships, such as the alliance between NVIDIA and Intel, while navigating intense legal scrutiny regarding copyright infringement and data privacy. Governments responded to these rapid advances by introducing national policy frameworks and hosting global summits to balance aggressive innovation with urgent safety and ethical concerns. Enterprise adoption grew in sectors like healthcare and finance, though leaders remained cautious of rising AI-related incidents and the complex challenges of data governance.
DeepSeek-V3.2: Bridging Open LLM Efficiency and ExcellenceThe document introduces DeepSeek-V3.2, a new open Large Language Model designed to bridge the performance gap between open-source and proprietary systems by focusing on efficiency and advanced reasoning. Its core architectural contribution is the DeepSeek Sparse Attention (DSA) mechanism, which significantly lowers computational complexity in long-context scenarios compared to standard attention. DeepSeek-V3.2 also relies on a scalable Reinforcement Learning framework and a novel pipeline for generating large-scale agentic data, leading to substantial improvements in its capacity for tool use and generalization. Standard DeepSeek-V3.2 achieves performance similar to GPT-5 on reasoning tasks and notably closes the capability gap on complex agentic benchmarks. Crucially, the experimental variant, DeepSeek-V3.2-Speciale, demonstrates state-of-the-art results, including gold-medal performance in the IMO 2025 and IOI 2025, setting a new milestone for open-source LLMs.
Ilya Sutskever – Scaling时代终结了The source material consists of a conversation with Ilya Sutskever, who argues that the AI field is moving past the current "age of scaling" and returning to the fundamental "age of research." A major technical focus of the discussion is the pervasive disconnect between high performance on laboratory evaluations and poor real-world reliability, which Sutskever attributes to a severe lack of generalization in current models. He posits that current AI often functions like a narrowly trained specialist, contrasting this with the superior robustness and high sample efficiency of human learners, whose built-in "value function"—analogous to emotions—facilitates rapid, general learning. Sutskever explains that his new company, SSI, is focusing on a different technical approach to solve this generalization problem and develop a continually learning super-intelligent agent that is not a static final product. Ultimately, he suggests that ensuring a positive outcome for society requires the creation of systems that are robustly aligned and potentially hardwired to care for all sentient life. Ilya Sutskever – We're moving from the age of scaling to the age of research
Understanding Large Language Models: A Comprehensive SurveyThis document synthesizes a comprehensive survey on Large Language Models (LLMs), outlining their evolution, core technologies, and the rapidly expanding landscape of their application and development. LLMs represent a significant paradigm shift from previous language models, distinguished by their massive scale—often containing billions of parameters trained on web-scale data—and the subsequent emergence of novel capabilities such as in-context learning, instruction following, and multi-step reasoning. The field is characterized by a dynamic interplay between a few dominant model families. Closed-source models, notably OpenAI's GPT series and Google's PaLM family, have consistently pushed the boundaries of performance and scale. In parallel, Meta's open-source LLaMA family has catalyzed a vibrant ecosystem of community-driven innovation, leading to a proliferation of powerful, accessible models. The construction of an LLM is a complex, multi-stage pipeline. It begins with meticulous data preparation, followed by computationally intensive pre-training on vast, unlabeled text corpora. To transform these foundational models into useful tools, they undergo critical refinement stages, including supervised fine-tuning (SFT) for specific tasks and alignment processes like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) to ensure their outputs are helpful, harmless, and aligned with human intent. The practical utility of LLMs is unlocked through sophisticated interaction patterns. Advanced prompt engineering techniques, such as Chain of Thought (CoT) and Tree of Thought (ToT), guide models to perform complex reasoning. Furthermore, augmenting LLMs with external systems via Retrieval-Augmented Generation (RAG) for up-to-date knowledge or external tools for specific actions is paving the way for the development of autonomous LLM Agents. Despite their transformative potential, LLMs face persistent challenges, including the generation of factually incorrect information (hallucination), reliance on static training data, immense computational costs, and significant security and ethical concerns. Consequently, future research is intensely focused on creating smaller, more efficient models (SLMs), exploring novel post-attention architectures like State Space Models (SSMs) and Mixture of Experts (MoE), expanding into true multi-modality, and building more robust and responsible AI systems.
GPT5的核心原理:如何提高大型语言模型输出的可理解性据说是GPT-5的关键论文 论文链接 这篇论文里面介绍了一种通用验证器的底层原理: 论文把AI训练分成两类角色:证明者(Prover)和验证者(Verifier)。验证者先设定自己的判别标准,相当于“领导者”;证明者则要写出解答,争取通过验证者的核查。更有意思的是,证明者既可以扮演“帮忙型”——写出正确、易查的推理,也可以扮演“捣蛋型”——写出看似对但其实有错的解答,挑战验证者的识别能力。这样一来,验证者不断提升“火眼金睛”,证明者也被倒逼把推理写得规范、透明。 为什么这种机制能真正提升AI输出的可读性?论文的理论解释是什么? 核心原因有三点: 第一,验证者能力比证明者弱,逼着证明者只能用最直白、最规范的表达方式,否则就过不了核查; 第二,这种对抗机制让验证者和证明者在不断博弈中提升鲁棒性和规范性,输出风格逐步向人类易懂靠拢; 第三,实验发现,能被小模型核查的推理,人类也更容易看懂,可读性提升对人和小模型都成立。 底层原理 论文用的是Stackelberg博弈理论。简单说,Stackelberg博弈是一种“先手—后手”结构:验证者先定策略,证明者观察后做最优回应。这样,验证者可以提前设定评分标准,证明者必须写出易查且正确的推理才能拿高分。如果证明者想作弊,验证者已有最优判别策略拦截。在理论上的Stackelberg均衡里,输出天然满足“完备性+稳健性”,也就保证了可验证性。
写在500的订阅今天这个节目的订阅到了500人,我感觉是到了一个里程碑,当时一时兴起做的节目,有这么多人订阅,我感到非常荣幸,后续我会持续更新这个节目,除了notebookllm 转录,我也会真人来录制一些节目,希望到时候大家也喜欢
微软 CPO:AI重塑产品与未来工作Microsoft CPO: If you aren’t prototyping with AI you’re doing it wrong | Aparna Chennapragada AI 时代的快速原型制作和构建: * Chennapragada 认为,在 AI 时代,“如果你不通过原型制作和构建来了解你想构建什么,我认为你就做错了。” 她强调,“即时命令集 (prompt sets) 是新的产品需求文档 (PRDs)。” * 她倡导“演示优先于备忘录 (demos before memos)”,认为原型制作是加速产品构建周期的关键。 * 她提到,虽然首次演示的时间大大缩短,但全面部署可能需要更长时间,这意味着需要同时思考如何使产品脱颖而出,避免仅仅追求每个想法。 1. 自然语言用户界面 (NLX) 的兴起: * Chennapragada 创造了“NLX 是新的 UX”这一说法,强调自然语言界面虽然看起来不像传统的图形用户界面 (GUI) 那样有形,但同样需要精心设计。 * 她认为,“对话也有语法。它们有结构。它们有 UI 元素。它们是隐形的。” * 她指出,即时命令 (prompt) 本身就是一种新的 UI 构造,而代理 (agents) 的新兴构造包括计划 (plans)(最好是可编辑的)和“展示工作”或思考过程。这些都需要产品构建者深入研究和设计。 1. 代理 (Agents) 的发展和影响: * Chennapragada 将代理描述为一种工具的演变,从应用程序发展到当前的辅助阶段 (assistance era)(如 Copilot),最终走向代理,即可以独立运行任务并具有更高自主性和复杂性的软件流程。 * 她认为代理的三个关键特征是: * 自主性 (Autonomy): 能够委派更高阶的任务。 * 复杂性 (Complexity): 不仅仅是单次任务,而是能够完成复杂的任务,例如“构建一个原型”或“帮助我完美地完成这次会议”。 * 异步性 (Asynchronous): 能够在用户不工作时工作。 * 她举了一个研究员代理的例子,说明代理不仅可以节省时间,还可以提供新的见解和“超能力”。 1. AI 时代的产品管理: * 对于“产品经理已死”的担忧,Chennapragada 持反对意见。她认为,如果产品经理只是处理流程,“那么你就需要思考价值是什么”,但如果他们专注于理解用户需求、确定构建什么、构建原因以及如何获得采用,那么他们的角色将变得更加重要。 * 她看到 AI 工具赋予了工程师、用户研究员和设计师更多能力,让他们能够利用 AI 专家来完善他们的想法,从而解锁了潜在的优秀想法。 * 她提到自己常用的一种 AI 用法是“WWXD”(What Would X Do?),例如询问“Satya 会如何看待我们正在推广的这套对话或想法”。 1. 应对快速变化的 AI 格局: * Chennapragada 描述了当前科技周期的压缩性,以周和月为单位,与过去的年和十年不同。 * 她指出,面临的挑战是如何在快速变化的技术与难以改变的人类习惯和组织变革管理之间取得平衡。 * 她提到了微软正在进行的“前沿计划 (Frontier program)”,旨在通过让早期采用者体验未来一年的尖端实验性功能来应对这一挑战,而不必等待整个公司改变。这是一个在企业内部“机构化和操作化我个人生活在未来一年的模式”的方式。 1. 从零到一产品构建的经验: * Chennapragada 分享了她从零到一产品构建中学到的教训,强调“先解决问题再扩展规模 (solve before scale)”。这意味着在早期阶段要对广泛的探索和 Lurches 感到舒适,避免过早地固定在某个本地最佳点上。 * 她警告了过早依赖“成人指标 (grownup metrics)”的危险性,例如 CTR 或留存率,因为在用户较少或产品处于早期阶段时,这些指标可能意义不大。她建议关注定性反馈和少数几个产品真正擅长的事情。 * 她提出了一个框架来评估从零到一产品的时机:寻找至少两个“拐点 (inflection points)”,包括技术转变、用户行为转变和商业模式转变。 1. 个人经历和见解: * 她分享了自己从事脱口秀喜剧的爱好,并从中学习到产品构建的经验,例如快速迭代、从用户那里获得直接反馈以及面对有时“不讨人喜欢”的反馈保持韧性。她甚至在准备一个关于 AI 和科技的脱口秀段子。 * 她谈到了自己在 Google(特别是 Google Lens 和 Google Now)和微软的工作经历,以及她作为 Satya Nadella 和 Sundar Pichai 的技术顾问的经历,称赞他们都是杰出的领导者,但风格不同。Sundar 擅长处理复杂的生态系统并保持冷静和深思熟虑,而 Satya 则表现出惊人的学习能力和在宏观与微观层面的操作能力。 * 她认为自己职业生涯中最关键的时刻是在 Google Search 工作期间,尝试推动个性化,虽然最初没有成功,但促使她开发了 Google Now,这让她意识到自己喜欢“看到拐角处的事情并构建产品以迎接挑战”,并且“过早出现与错误一样”。 1. 对产品构建者的建议: * 积极进行原型制作和构建。 * 拥抱自然语言作为新的用户界面进行设计。 * 理解和探索代理的功能。 * 更新自己的认知,不要被过去的经验所束缚,要敢于对 AI 提出更高的要求。 * 在从零到一的产品中,专注于先解决核心问题,而不是过早地追求规模和指标。 * 寻找技术、用户行为和商业模式的拐点。 * 她不同意“编程已死”的观点,认为软件操作员 (Software Operator) 的角色将变得重要,即能够通过更高级的抽象层(如自然语言)来编程。
Cursor 的崛起与软件开发的未来主要论点和重要事实: 1. Cursor 的核心愿景:后代码时代和逻辑设计师的兴起 * Cursor 的最终目标是“发明一种全新的编程方式,一种非常不同的构建软件的方式”。 * 他们预见了一个“后代码”世界,工程师将更多地成为“逻辑设计师”,专注于“准确地指定你想要一切如何工作的意图”。 * 这种新方法将是一种“更高层次、更具生产力、在某些情况下也更容易获得的构建软件的方法”。 * 这与目前流行的两种观点不同:一是软件构建将与现在非常相似(文本编辑、正式编程语言),二是未来将完全依赖于与机器人交谈来构建和修改软件(聊天机器人/Slackbot 模式)。 * Cursor 致力于创建一个软件逻辑表示,它“更像英语”,可以在更高层次上编辑和指向,而不是“难以理解的数百万行代码”。 1. Cursor 的惊人增长和成功秘诀 * Cursor 的增长速度“史无前例”,在推出 20 个月后达到了 1 亿美元 ARR,推出两年后达到了 3 亿美元 ARR。 * 增长是“相当一致的指数级增长”,最初的指数级增长感觉“相当缓慢”,直到数字变大。 * 成功的秘诀在于“持续的偏执”,认为产品可以在许多方面变得更好,最终目标是“发明一种全新的编程方式”。 * 专注于产品构建和首先构建自己喜欢的、团队喜欢的,然后根据用户进行调整是重要的。 * 战略性地选择要构建的正确事物和有效优先级划分是很重要的。 * AI 产品构建是一种新的、跨学科的形式,介于普通软件公司和基础模型公司之间,需要在产品卓越性和模型开发方面都做得很好。 * 引文: * “你们在一年半的时间里从 0 美元达到了 1 亿美元 ARR,这是史无前例的。” * “Cursor 是领先的 AI 代码编辑器,正处于改变工程师和产品团队构建软件方式的最前沿。它也是有史以来增长最快的产品之一,在推出 20 个月后达到了 1 亿美元 ARR,推出两年后达到了 3 亿美元 ARR。” * “我认为秘诀在于……持续的偏执,认为这个东西可以在所有这些方面变得更好。最终目标是真正发明一种新的编程方式。” 1. 自定义模型在 Cursor 中的重要性 * 一个“最违反直觉”的发现是,“我们绝对没想到会自己开发模型。” * 然而,“此刻,Cursor 中的每个魔幻时刻都以某种方式涉及自定义模型。” * Cursor 确实使用了最大的基础模型(如 Sonnet、Gemini、GPT),但在成本或速度原因下,对于基础模型无法服务的使用案例,他们使用自己的模型。 * 一个核心例子是自动补全功能,它需要极快的速度(300 毫秒内的完成)和低成本,并专注于预测代码更改(diffs)。 * 他们还在大型模型输入和输出的辅助模型,例如搜索相关代码部分(输入端)和将大型模型的草图转换为完整的代码 diffs(输出端)。 * 自定义模型的开发是“非常有帮助的”,可以提高质量(特别是在特定任务中)和速度。 1. 软件开发未来的技能:品味和意图指定 * 在“后代码”世界中,“品味”将变得“越来越有价值”。这不仅包括视觉品味(UI/UX),也包括软件的逻辑和工作方式的“品味”。 * 工程师将更多地感觉自己是“逻辑设计师”,专注于“准确地指定你想要一切如何工作的意图”。 * 未来将更多地关注“是什么”,而不是“如何做”。 * 工程师将能够“不那么小心”,从目前的“极度重要”的谨慎转变为更多地关注“品味”。 * “品味”是指“对应该构建什么有正确的想法”,以及“轻松地将其转化为你想要构建的东西,你想要一切如何工作,你想要它是什么样子”。 1. 克服“Vibe Coding”的挑战 * “Vibe coding”描述了一种状态,即人们生成大量代码,但不理解细节。 * 目前的挑战是,不理解细节会导致无法更改大型生成代码。 * 解决方案在于找到如何“在他们不理解代码的情况下,赋予人们持续控制所有细节的能力”。 * 目前,让有“品味”的人完全控制软件还存在问题,因为 AI 做出的决定可能“难以驾驭”,缺乏控制。 1. 如何成功使用 AI 工具:分解任务和实验 * 目前成功使用这些工具的人往往会“分解事情”,而不是一次性向模型指定所有内容。他们会“指定一点,AI 写一点,审查,指定一点,AI 写一点,审查”。 * 建议不要“写一个巨大的东西,告诉模型准确地做什么”,这可能是“灾难的秘诀”。 * 鼓励开发者在安全的环境中(例如副项目)“明确地尝试摔倒”,通过“雄心勃勃”来“发现这些模型的极限”。 * 许多人低估了 AI 的能力,需要“给 AI 一个公平的机会”。 1. 早期发展的挑战和教训 * Cursor 的起源是“为问题寻找解决方案”,并思考 AI 在未来十年的发展。 * 关键时刻之一是使用 Code Pilot 的早期测试版,这是他们遇到的第一个“真正、真正、真正有用”的 AI 产品,也是“用过的最有用,如果不是最有用,的开发工具之一”。 * 他们最初曾尝试将 AI 应用于机械工程,但由于数据稀缺和个人兴趣不足而放弃。 * 转向编程领域是因为感觉这个领域“尽管已经过了一段时间,但变化不大”,并且认为现有参与者“野心不够”。 * “野心不足”是一个重要的教训:即使一个领域看起来拥挤,如果现有玩家不够雄心勃勃或方法存在缺陷,仍然存在巨大机会。AI 领域的“天花板非常高”。 * 早期的产品构建(包括从零开始构建原型,后转向基于 VS Code)速度非常快(3个月)。 * 关于招聘,“很多人你听说他们招聘太快,我认为我们一开始招聘得太慢了。”找到合适的团队成员“无比重要”。 * 他们通过长时间(有时甚至数年)招聘他们认为“世界一流”的人才来克服这一点。 * 他们使用为期两天的现场“工作测试项目”作为核心面试流程的一部分,这有助于评估工作产品、文化契合度和候选人的积极性。 1. 关于 AI 领域的护城河和可防御性 * Truell 认为,AI 领域需要“持续努力构建最好的东西”,因为“天花板太高了”,可以被“跨越”。 * 他将当前市场比作 1999 年底的搜索引擎市场或 70、80、90 年代的微型计算机市场,这些市场的“天花板都很高”,可以持续地从投资中获得价值。 * 他认为这更像“消费者类型的护城河”,即持续地成为最好的产品,让人们留在你身边,而不是像 Salesforce 那样通过锁定和合同来创造锁定。 * 关键在于,如果在一个可以持续进行“大规模投资”和招聘“优秀人才”来获取价值的领域,就可以获得研发的“规模经济”,并在技术上深入发展,从而形成可防御性。 1. AI 领域未来的赢家 * 市场“非常非常大”,比过去为开发者构建工具的市场大得多。 * 未来将会有“很多不同的解决方案”。 * 然而,Truell 预测会有一家公司构建“构建世界上几乎所有软件的通用工具”,这将是一项“世代相传的巨大业务”。 * 这家公司将负责“让整个过程变得更好”,包括底层的技术(整合最佳提供商,有时自己开发)和产品体验。 * 除了通用工具外,还会有公司专注于“特定细分市场”或“软件开发生命周期中非常特定的一部分”。 * 他不认为这是一个对现有巨头“非常友好”的市场,因为竞争在于谁拥有“最具创新性的产品”,并且切换门槛相对较低。
企业中的人工智能:七个经验这是一份详细的简报文件,回顾了 OpenAI 在企业中应用人工智能的经验。 主要主题和重要观点: * 人工智能正在改变企业运营: 人工智能在提高员工绩效、自动化日常操作和增强产品能力方面取得了显著且可衡量的改进。 * 将人工智能视为新范式: 成功利用人工智能的公司将其视为一个需要实验心态和迭代方法的全新范例。 * OpenAI 的迭代开发方法: OpenAI 采用由研究、应用和部署团队组成的迭代方法,通过客户用例快速学习并加速产品改进。 * 企业人工智能采用的七个经验: OpenAI 根据与企业客户的合作经验总结出七个关键经验,以指导人工智能的成功采用。 七个重要经验(包含引用): 1. 从评估开始: 使用系统化的评估流程来衡量模型在特定用例中的表现。 * “评估是验证和测试模型产出结果的过程。严格的评估会带来更稳定、更可靠的应用程序,这些应用程序能够适应变化。” * 摩根士丹利通过评估其翻译、摘要和人工训练模型的表现,成功地在金融服务中应用了人工智能,提高了金融顾问的效率和有效性。 1. 将人工智能嵌入您的产品: 利用人工智能创造新的客户体验和更相关的互动。 * Indeed 使用 GPT-4o mini 改进了工作匹配功能,通过提供个性化的推荐理由,将工作申请启动率提高了 20%,下游成功率提高了 13%。 1. 现在开始并尽早投资: 越早开始,价值复利效应越显著。 * Klarna 的人工智能助理在几个月内处理了三分之二的客户服务聊天,将平均解决时间从 11 分钟缩短到 2 分钟,预计将带来 4000 万美元的利润提升。 Klarna 员工的广泛采用也加速了内部效率和客户体验的提升。 * “AI 在客户交互方面的突破意味着为我们的客户带来更好的体验、更优惠的价格,为我们的员工带来更有趣的挑战,以及为我们的投资者带来更好的回报。” - Sebastian Siemiatkowski,Klarna 联合创始人兼首席执行官 1. 定制和微调您的模型: 根据您的用例具体情况调整人工智能可以显著提高价值。 * “如果一个 GPT 模型是一套现成的西装,那么微调就是量身定制的选择——您根据组织的特定数据和需求定制模型的方式。” * Lowe's 通过微调 OpenAI 模型,将产品标记准确率提高了 20%,错误检测提高了 60%,从而改进了其电商搜索功能。 * “当我们看到微调 GPT 3.5 在我们的产品数据上取得的结果时,团队的兴奋之情溢于言表。我们知道我们手上有一个赢家!” - Nishant Gupta,数据、分析和计算智能高级总监 1. 将人工智能交到专家手中: 最了解流程的人员最适合用人工智能改进流程。 * BBVA 将 ChatGPT Enterprise 推广到所有员工手中,鼓励他们探索自己的用例。在五个月内,员工创建了超过 2900 个自定义 GPTs,显著提高了信贷风险评估、法律合规查询和客户服务情绪分析的效率。 * “我们认为对 ChatGPT 的投资就是对我们员工的投资。人工智能放大了我们的潜力,帮助我们提高效率和创造力。” - Elena Alfaro,全球人工智能采用主管 1. 解除开发人员的障碍: 自动化软件开发生命周期可以成倍地提高人工智能收益。 * Mercado Libre 开发了名为 Verdi 的平台,该平台由 GPT-4o 和 GPT-4o mini 提供支持,帮助他们的 17000 名开发人员统一和加速人工智能应用程序的构建。这使得库存容量提高、欺诈检测准确率接近 99%、产品描述定制以及订单增加成为可能。 * “我们使用 GPT-4o mini 设计了我们理想的人工智能平台,重点是降低认知负荷,并使整个组织能够迭代、开发和部署新的创新解决方案。” - Sebastian Barrios,技术高级副总裁 1. 设定大胆的自动化目标: 大多数流程包含大量重复性工作,适合自动化。目标要定高。 * OpenAI 在内部自动化平台方面的经验表明,通过将人工智能嵌入现有工作流程,可以自动化数十万项任务,从而提高支持团队的效率和响应能力。 结论: * 利用人工智能的好处来自于开放的实验心态,辅以严格的评估和安全防护措施。 * 成功的公司会围绕高回报、低难度的用例进行调整,在迭代中学习,并将这些经验应用到新的领域。 * 结果清晰且可衡量:更快、更准确的流程;更个性化的客户体验;以及随着员工专注于只有人才能做的事情而带来更有回报的工作。 * Operator 是 OpenAI 代理方法的例子,它可以像人一样在网络上操作,自动化以前需要人工干预的工作流程。 安全与隐私: * 对于企业客户,OpenAI 优先考虑安全、隐私和控制。 * 不使用客户内容来训练模型,企业保留完全所有权。 * 数据在传输和静止时加密,符合 SOC 2 Type 2 和 CSA STAR Level 1 标准。 * 细粒度的访问控制,确保内部治理和合规性。 * 灵活的保留设置,以匹配组织的策略。 更多资源: * OpenAI for Business * OpenAI Stories * ChatGPT Enterprise * OpenAI and Safety * API Platform * OpenAI 的使命是确保通用人工智能造福全人类。 ai-in-the-enterprise
Practical Guide To Building AI Agents内容来自 OpenAI 发布的 A practical guide to building agents 该指南系统地介绍了构建基于大型语言模型的智能代理,阐述了代理的定义、适用场景以及区别于传统软件的关键特性,例如自主决策和工具使用。核心设计要素包括模型选择、工具定义和指令配置,并探讨了单代理和多代理的编排模式以应对不同复杂度的任务。此外,文档强调了安全防护措施(guardrails)的重要性,涵盖数据隐私、内容安全和人为干预等方面,旨在帮助读者理解构建安全、可靠且高效的智能代理的关键原则和实践方法。 PDF Download
MCP 协议详解模型上下文协议 (MCP) 1. 引言 随着大型语言模型 (LLM) 技术的快速发展,将 AI 与外部数据源和工具集成的需求日益增长。传统方法存在平台依赖性、安全性和灵活性问题。为解决这些挑战,Anthropic 公司于 2024 年 11 月推出了模型上下文协议 (Model Context Protocol, MCP),作为统一的开放标准,使开发者能够以一致方式连接各种数据源、工具和功能到 AI 模型。 2. MCP 的基本概念与价值 2.1 MCP 的定义与起源 MCP 是一种开放标准协议,旨在标准化 LLM 与外部数据源和工具之间的通信。它可被视为 AI 世界的 "USB-C" 接口,提供标准化方式连接不同数据源和工具。 2.2 MCP 诞生的原因 MCP 旨在解决以下问题: * 手动筛选或粘贴外部数据进 LLM 提示的低效性。 * 复杂问题场景下,手动引入信息困难。 * 现有框架(如 LangChain Tools、LlamaIndex)商业化程度高,代码抽象复杂。 * 现有 LLM 平台的函数调用机制存在 API 实现差异,适配成本高。 2.3 MCP 的核心价值 * 生态丰富:提供大量现成插件,无需从零开发。 * 统一性:支持多个 LLM 平台,便于切换。 * 数据安全:敏感数据本地存储,用户可控。 * 标准化:减少重复开发,提升工具复用性。 * 灵活性:不同 LLM 提供商之间可互换。 3. MCP 的架构与工作流程 3.1 MCP 架构 MCP 采用客户端-服务器架构,包括: * MCP Hosts:发起请求的 LLM 应用(如 Claude Desktop、IDE)。 * MCP Clients:主机程序内部组件,连接 MCP 服务器。 * MCP Servers:提供上下文、工具和提示。 * 本地资源:如本地文件、数据库。 * 远程资源:如 API 服务。 3.2 MCP 工作流程 1. 用户向 AI 提出问题。 2. AI 分析可用工具。 3. 选定工具并调用。 4. 工具执行任务并返回结果。 5. AI 结合结果生成最终响应。 6. 向用户展示答案。 4. MCP 核心功能 4.1 功能类型 MCP 服务器提供三类功能: * 资源(Resources):允许 LLM 访问外部数据,如文件系统、数据库、Google Drive。 * 工具(Tools):可被 LLM 调用的函数,如 Git、Sentry、Google Maps。 * 提示(Prompts):预先编写的模板,辅助用户任务。 4.2 通信机制 * 本地通信:基于标准输入输出 (stdio)。 * 远程通信:基于 Server-Sent Events (SSE) 和 HTTP。 * 传输格式:统一使用 JSON-RPC 2.0,保证标准化和可扩展性。 5. MCP 与 Function Call 的比较 特性Function CallMCP标准化程度自定义JSON-RPC 2.0适用场景结构化数据操作复杂工作流协调集成方式需适配特定模型统一接口支持多种 LLM同步性同步异步 5.1 适用场景 * Function Call 适用于: 直接调用特定 AI 模型功能。 注入结构化数据。 性能要求高的场景。 * MCP 适用于: 需要切换不同 LLM。 复杂的动态交互。 连接多种数据源和工具。 6. MCP 的安全性与信任机制 6.1 安全性考虑 * 用户同意:所有数据访问需用户批准。 * 数据隐私保护:主机需确保数据传输安全。 * 工具执行安全:工具调用前需用户明确授权。 * LLM 采样控制:用户可控制 LLM 访问哪些数据。 6.2 安全最佳实践 * 构建强大的授权机制。 * 采用最小权限原则。 * 定期安全审计。 7. MCP 的实际应用案例 7.1 企业与 AI 结合 * 企业数据库集成:连接 SQL Server、CRM 数据库,实现 AI 辅助业务分析。 * 开发工具:支持 Git、GitHub、GitLab,提升代码管理能力。 * 浏览器自动化:结合 Puppeteer 进行网页数据采集。 * 生产力工具:与 Slack、Google Maps 集成,优化协作。 7.2 具体应用案例 * Claude Desktop:用户可配置 MCP 服务器,实现 AI 访问本地和远程数据。 * 企业环境中的应用:OceanBase 通过 MCP 连接数据库、API,提升 AI 处理能力。 * 个人应用:Cursor 代码助手集成 MCP,优化开发体验。 8. MCP 的实现与开发 8.1 MCP 服务器开发方式 * 使用官方 SDK(TypeScript、Python、Java、Kotlin、C#)。 * 自定义 MCP 服务器,扩展特定功能。 * 使用现有 MCP 服务器(官方和社区维护的 MCP Servers)。 8.2 开发步骤 1. 了解可用工具。 2. 构建请求。 3. 由 LLM 决定是否使用工具。 4. 执行工具调用。 5. 接收结果。 6. 生成最终响应。 7. 展示结果。 8.3 开发最佳实践 * 使用 LLM 辅助开发。 * 提供清晰的工具描述。 * 使用 @mcp.tool() 装饰器定义 MCP 工具。 * 采用 MCP Inspector 进行调试。 9. MCP 生态系统与社区 9.1 官方资源 * GitHub:modelcontextprotocol 仓库。 * 官方网站:提供文档和技术资源。 * SDK:支持多种编程语言。 * 社区论坛:促进开发者交流。 9.2 开源 MCP 服务器列表 * 官方 MCP 服务器列表。 * 社区维护的 Awesome MCP Servers。 9.3 贡献与社区参与 * 贡献代码,提交 Pull Requests。 * 参与社区讨论,反馈问题。 * 贡献新 MCP 服务器或客户端。 10. 未来发展趋势 * 跨平台兼容性:增强对更多 LLM 平台的支持。 * 更强的数据安全:优化权限管理和访问控制。 * 智能化工具管理:AI 自动选择最佳工具。 * 更广泛的企业应用:扩展 AI 在企业数据分析中的应用。 MCP 作为标准化协议,提升了 AI 访问外部资源的能力,为 AI 生态带来了更高的可扩展性、安全性和灵活性。
How I use LLMs-Andrej Karpathy音频首先概述了ChatGPT及其类似应用的生态系统,强调了OpenAI的ChatGPT作为最初的且功能最丰富的模型。随后,视频深入探讨了与LLM的基本交互方式,包括token的概念和上下文窗口的重要性。Karpathy解释了LLM的训练过程,包括预训练和后训练阶段,并强调了模型知识的时效性。视频还讨论了思考模型的概念,这些模型通过强化学习得到增强,能够进行更深入的推理,尤其在解决复杂的数学和代码问题时表现出色。此外,转录还探讨了LLM的工具使用能力,特别是互联网搜索,并介绍了更高级的功能,如深度研究,这些功能结合了搜索和思考,能够生成详细的报告。最后,视频还涵盖了LLM在处理多模态输入输出方面的应用,包括语音、图像和视频,以及提升用户体验的生活质量功能,如记忆、自定义指令和自定义GPT。 可以查看通义千问内容总结:How I use LLMs
How I use LLMs音频来自 Andrej Karpathy 的最新视频 How I use LLMs LLM 生态系统概述与使用指南 1. LLM 发展概述 大型语言模型(LLM)已经成为人工智能技术的核心之一,ChatGPT、Claude、Gemini 和 Mistral 等多个模型在市场上竞争。LLM 的发展得益于 Transformer 结构、RLHF(人类反馈强化学习)和 Mixture of Experts(专家混合)等技术的突破。 目前的 LLM 生态系统涵盖多个层面,包括 API 访问、插件(如 ChatGPT 的 GPTs 和工具调用)、本地部署(如 llama.cpp)以及企业级解决方案。 2. 主要 LLM 产品与比较 ChatGPT(由 OpenAI 提供) * 目前主流的 LLM 之一,支持 GPT-4-turbo 版本。 * 具备工具调用能力,如浏览器、Python 计算、代码解释器等。 * 提供自定义 GPTs 功能,允许用户创建特定任务的 AI 助手。 * 插件生态正在逐步转向 GPTs 形式。 Claude(由 Anthropic 提供) * 强调安全性和对齐性,采用“宪法 AI”方法。 * Claude 3 版本在某些任务上优于 GPT-4-turbo。 * API 访问相对封闭,主要面向企业用户。 Gemini(由 Google DeepMind 提供) * 以前称为 Bard,Gemini 1.5 Pro 版本支持较长上下文窗口。 * 结合 Google 生态(Docs、Sheets 等)进行深度集成。 * 在代码生成和推理任务上有较强表现。 Mistral & Mixtral(开源模型) * Mistral 7B 是一个轻量级但性能强劲的开源模型。 * Mixtral 8x7B 采用专家混合架构,在特定任务上能优于 GPT-3.5。 Llama(Meta 提供) * Llama 2 是开源大模型,Llama 3 预计将在 2024 年推出。 * 适合企业和个人本地部署使用。 3. 交互方式与 LLM 体验 LLM 的交互方式主要包括文本对话、代码生成、工具调用(如搜索、计算)、插件扩展和多模态输入。 文本交互优化 * 提问应清晰、具体,避免歧义。 * 使用“思维链提示”(CoT)提高推理能力。 * 采用示例驱动(Few-shot Learning)提升回答质量。 代码生成与调试 * ChatGPT 具备代码解释器(Code Interpreter),可运行 Python 代码。 * Claude 和 Gemini 在代码推理方面也表现良好。 * 本地部署(如 llama.cpp)适用于对隐私要求较高的场景。 4. LLM 的工具使用 LLM 具备多种工具能力,如 API 访问、浏览器搜索、代码执行等。 常见工具 * Python 计算(用于数学计算、数据分析)。 * 浏览器访问(用于实时信息获取)。 * DALL·E 生成图片(ChatGPT 内置)。 * 代码解释器(用于运行 Python 代码)。 * API 访问(如 OpenAI API, Claude API, Gemini API)。 5. LLM 的多模态能力 LLM 正在从单一文本交互扩展到多模态(文字、图片、音频、视频)处理。 * 图像理解:ChatGPT 和 Gemini 支持图片输入分析。 * 音频处理:Whisper 是 OpenAI 开发的语音识别模型。 * 视频生成:Sora(OpenAI 开发)可以生成高质量视频,但尚未开放。 6. 企业应用与本地部署 LLM 在企业场景中的应用包括: * 文档自动化(法律、财务、医疗文档处理)。 * 客户服务(智能客服和对话机器人)。 * 代码辅助(如 GitHub Copilot)。 * 数据分析(BI 报告、SQL 生成)。 本地部署方案 * llama.cpp(适用于轻量级本地推理)。 * Ollama(提供更简单的模型管理和运行方式)。 * vLLM(高效的推理框架,适用于 GPU 服务器)。 7. 未来趋势与展望 * 更长上下文窗口:Gemini 1.5 Pro 已支持百万级上下文,未来 LLM 可能彻底解决“遗忘”问题。 * 增强记忆能力:未来 LLM 可能支持真正的个性化记忆,而不仅仅是会话上下文。 * 更强的多模态集成:Sora 及其后续产品可能会重塑视频生成领域。 * 本地 AI 发展:高性能的开源模型将让 LLM 部署变得更加普及。 结论 LLM 生态系统仍在快速发展,各大公司正竞相优化模型能力和用户体验。未来,我们可以期待更强的 AI 交互方式、更智能的工具集成以及更广泛的企业应用。对于开发者来说,关注 API 发展、本地部署方案以及 LLM 的多模态能力,将有助于更高效地利用这项技术。
解密推理模型解密推理模型 核心主题: * 推理模型的兴起与传统LLM的区别: 传统LLM主要依赖于规模化(更大的模型和更多的数据),而推理模型则专注于让模型“思考”更长时间,通过复杂的思考过程来解决问题。 * “最近,LLM研究中出现了一种全新的范式:推理。 与标准LLM相比,推理模型以完全不同的方式解决问题。 特别是,它们在提供对问题的最终答案之前,会花费可变的时间来“思考”。 * Long CoT(长链思考): 推理模型的核心特征是生成详细的推理轨迹(Long CoT),这与传统LLM简短的解释不同。Long CoT更像是搜索算法,模型会在其中分解问题、检测错误、探索替代方案。 * “推理模型的主要区别在于它能在回答问题之前“思考”。推理模型的思考仅仅是长长的思维链——或者简称long CoT,有时被称为推理追踪或轨迹——由LLM输出。 * 可验证性与奖励: 推理模型通常在可验证的任务(如数学和编码)上进行评估。可验证性是指存在正确答案或基于规则的验证方法。使用可验证的奖励信号进行强化学习(RL)是训练推理模型的基础。 * “我们仅仅使用验证结果作为使用RL训练的奖励信号;见下文。实现这个想法有很多不同的方法(例如,过程奖励或纯RL),但它们共享使用RL从可验证奖励中学习的共同主题。 这是所有现代推理模型所基于的基本概念。” * DeepSeek-R1系列: DeepSeek-R1-Zero证明了无需监督微调(SFT)也能训练出强大的推理模型。DeepSeek-R1则结合了SFT和RL,以提高对齐性和推理能力。DeepSeek利用Deepseek-v3作为基础模型,采用多token预测目标,并使用量化训练策略,在性能和效率方面都非常出色。 * “DeepSeek-R1-Zero,一个通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。” * 知识蒸馏: 通过知识蒸馏可以将大型推理模型的能力转移到更小、更高效的模型中。这是一种有效的训练方法,甚至优于直接对小型模型进行大规模RL训练。 * “将更强大的模型提炼成更小的模型会产生极好的结果,而依赖大规模RL的更小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。” * **推理时策略:**除了训练方法,推理时也存在一些提高模型性能的方法,例如生成更长的CoT(增加计算量)和并行解码(生成多个输出并进行聚合)。 * 关键趋势:**Long CoT:**推理模型生成详细的推理链,允许用户通过控制CoT的长度来动态调整计算成本和推理能力。 * **RL驱动的自进化:**通过正确激励(通常是基于规则的奖励),LLM可以在RL训练中自然地发展出复杂的推理策略。 * **知识蒸馏的有效性:**可以将大型推理模型的能力转移到更小、更高效的模型中。 重要概念/技术: * **SFT(监督微调):**使用人工或模型生成的标注数据对LLM进行微调。 * **RLHF(基于人类反馈的强化学习):**使用人类偏好数据训练奖励模型,并使用该模型通过强化学习来调整LLM。 * RLVR(基于可验证奖励的强化学习): 使用可验证的答案或规则作为强化学习的奖励信号。 * GRPO(Group Relative Policy Optimization): DeepSeek-R1-Zero使用的强化学习算法,它是一种更简单、更高效的替代PPO的方法。 * **Rejection Sampling(拒绝采样):**生成多个输出,然后使用奖励模型或验证方法选择最佳输出,用于训练或推理。 * **Distillation(蒸馏):**将大型模型(教师模型)的知识转移到小型模型(学生模型)。 Open Reasoning Models (开放推理模型) 随着DeepSeek-R1等模型的发布,研究社区正在发布越来越多的开放推理模型。这为研究和创新提供了机会,并允许更广泛的受众访问最先进的推理能力。其他一些值得注意的开放推理模型包括: * Sky-T1 和 Sky-T1-Flash * Bespoke Stratos * LIMO * S1 * RedStar 结论: 推理模型是LLM研究的一个新兴领域,与传统LLM相比,它在问题解决方面采取了不同的方法。通过利用长链思考(Long CoT)、强化学习(RL)和知识蒸馏等技术,推理模型在诸如数学、编码和一般科学等可验证任务中取得了显著的成果。 DeepSeek-R1的发布为构建强大的推理模型提供了一个可复制的蓝图,并为进一步的研究和开发开辟了新的途径。随着该领域的不断发展,我们可以预期未来会看到更多高效、通用的推理模型。 注意事项: * DeepSeek-R1对提示很敏感,“ 在评估 DeepSeek-R1 时,我们观察到它对提示很敏感。Few-shot prompting 会持续降低其性能。”。 * 奖励模型的reward hacking风险需要注意。
DeepSeek、中国、OpenAI:Lex Fridman访谈简报:Lex Fridman Podcast #459 – AI Megaclusters and Related Topics 主要主题: * 开源权重 (Open-Weights): 开源权重是指语言模型的模型权重在互联网上可供下载,并附带不同的许可协议,这些协议规定了模型的使用条款。嘉宾讨论了 Llama、DeepSeek、Qwen、Mistral 等模型的开源权重许可的复杂性。 * DeepSeek 的重要性: DeepSeek-R1 模型具有非常宽松的 MIT 许可证,允许商业用途和不受限制的用例。DeepSeek 的论文在技术细节上非常详尽,对其他团队改进训练技术具有实际指导意义。DeepSeek-V3 在生成类人文本方面表现出色。 * 数据安全和隐私: 开源权重允许用户在本地计算机上运行模型,从而更好地控制数据,而使用 API 则会将数据暴露给公司,这些公司可能有不同的数据存储和使用政策。 * 模型架构和训练: 混合专家模型 (Mixture of Experts, MoE) 试图模仿大脑的结构,其中模型的不同部分被激活,从而降低了训练和推理成本。嘉宾还讨论了 all-reduce 和 all-gather 通信在 GPU 网络中的作用,以及 NVIDIA 的标准库。 * GPU 资源和限制: 讨论了 DeepSeek 的 GPU 资源(可能远超公开数据),以及 NVIDIA 的 H100 和 H800 GPU 架构的区别(H800 针对中国市场,降低了互连带宽)。 美国对中国的芯片出口管制旨在限制其在人工智能和军事领域的进展。 * 通用人工智能 (AGI) 的时间表: 嘉宾对 AGI 的时间表进行了预测,认为在 2030 年之后才可能出现对地缘政治构成实际威胁的 AGI。 讨论也涵盖了部署 AGI 技术的实际成本和物理限制。 * 半导体产业和 TSMC 的重要性: TSMC 是全球主要的芯片制造商,几乎所有电子产品都依赖于 TSMC 的芯片。美国正在努力将 TSMC 的生产转移到美国本土,以确保供应链安全。但TSMC真正的价值在研发中心,主要集中在台灣新竹。 * 芯片走私: 讨论了通过新加坡和马来西亚等国家/地区进行 GPU 走私的可能性,以及美国政府试图阻止这种行为的努力。 * 推理 (Inference) 和训练: 推理与传统的分布式系统有很大不同,而训练则需要大量的 GPU 资源。KV 缓存 (KV Cache) 是推理过程中的一个重要优化,它可以压缩表示模型中所有先前的 tokens。 长的上下文长度增加了推理的内存使用量和成本。 * 可验证性 (Verifiability) 的重要性: 为了改进模型的推理能力,需要使用可验证的任务进行训练,例如数学和编码。基于沙箱和强化学习的机器人技术提供了一个无限可验证的任务领域。 * 规模化 (Scaling) 的挑战: 嘉宾强调,仅仅扩大规模并不一定能带来更好的结果。 Jevons Paradox 强调了 AI 进步可能会增加市场需求。 * 能源消耗: 数据中心消耗大量电力,而且每个芯片的功率正在增加。正在探索使用可再生能源和更有效的冷却方法来减少数据中心的碳足迹。 * NVIDIA 的优势: NVIDIA 在硬件和软件方面都具有优势,并且拥有独特的文化,使其能够适应新的应用领域。AMD 在硬件方面有所进步,但在软件方面仍然落后。 * AI 的泛化能力: 重要的是让语言模型能够泛化到新的领域并实时解决问题。可以通过在沙箱中进行训练,并逐步添加新的领域来实现这一点。 重要观点/引语: * 开源权重: "So, the open-weights are you have your fate of data in your own hands." (开源权重意味着你掌握了数据命运) * DeepSeek 的许可证: "The DeepSeek-R1 model has a very permissive license. It's called the MIT license. That effectively means there's no downstream restrictions on commercial use, there's no use case restrictions." (DeepSeek-R1 模型拥有非常宽松的 MIT 许可证,这意味着对商业用途没有任何下游限制,也没有用例限制。) * 混合专家模型 (MoE): "A mixture of experts models attempts to approximate this to some extent...different portions of the model activate." (混合专家模型试图在某种程度上近似这种模型……模型的不同部分被激活。) * 芯片出口管制: "So, the entire semiconductor restrictions, you read them, they're very clear, it's about AI and military civil fusion of technology." (你读一下所有的半导体限制条款,它们都非常明确,是关于人工智能以及军事和民用技术融合的。) * TSMC 的重要性: "You cannot purchase a vehicle without TSMC chips. You cannot purchase a fridge without TSMC chips." (没有 TSMC 的芯片,你买不到汽车,也买不到冰箱。) * NVIDIA 的优势: "Nvidia, it should be said, is a truly special company. There's the whole, the culture and everything, they're really optimized for that kind of thing." (应该说,NVIDIA 是一家非常特别的公司。他们的文化和一切,都是为了实现那种目标而优化的。) * AGI 可能达到的时间: "For me, it's probably after 2030, so I'm not as-That's what I would say." (我认为可能在2030之后,我也是这么认为的。) 其他值得注意的点: * "微波炉帮" (Microwave Gang) Reddit 社区的例子,说明了输入异常数据会导致模型损失激增。 * "YOLO 运行" (YOLO Run) 的概念,即在小规模实验后,将所有资源集中在一个模型架构上。 * 对中国 GPU 资源估算的讨论,SemiAnalysis 认为 DeepSeek 实际上拥有接近 50,000 个 GPU。 * NVIDIA 为中国市场定制的 H800 和 H20 芯片,以满足美国的出口管制要求。 * KV缓存对sequence length以及内存使用上的影响。 * 对未来算力以及能源需求的担忧,已经开始影响数据中心供电以及芯片散热方式。