
- 写在500的订阅
今天这个节目的订阅到了500人,我感觉是到了一个里程碑,当时一时兴起做的节目,有这么多人订阅,我感到非常荣幸,后续我会持续更新这个节目,除了notebookllm 转录,我也会真人来录制一些节目,希望到时候大家也喜欢
- 微软 CPO:AI重塑产品与未来工作
Microsoft CPO: If you aren’t prototyping with AI you’re doing it wrong | Aparna Chennapragada AI 时代的快速原型制作和构建: * Chennapragada 认为,在 AI 时代,“如果你不通过原型制作和构建来了解你想构建什么,我认为你就做错了。” 她强调,“即时命令集 (prompt sets) 是新的产品需求文档 (PRDs)。” * 她倡导“演示优先于备忘录 (demos before memos)”,认为原型制作是加速产品构建周期的关键。 * 她提到,虽然首次演示的时间大大缩短,但全面部署可能需要更长时间,这意味着需要同时思考如何使产品脱颖而出,避免仅仅追求每个想法。 1. 自然语言用户界面 (NLX) 的兴起: * Chennapragada 创造了“NLX 是新的 UX”这一说法,强调自然语言界面虽然看起来不像传统的图形用户界面 (GUI) 那样有形,但同样需要精心设计。 * 她认为,“对话也有语法。它们有结构。它们有 UI 元素。它们是隐形的。” * 她指出,即时命令 (prompt) 本身就是一种新的 UI 构造,而代理 (agents) 的新兴构造包括计划 (plans)(最好是可编辑的)和“展示工作”或思考过程。这些都需要产品构建者深入研究和设计。 1. 代理 (Agents) 的发展和影响: * Chennapragada 将代理描述为一种工具的演变,从应用程序发展到当前的辅助阶段 (assistance era)(如 Copilot),最终走向代理,即可以独立运行任务并具有更高自主性和复杂性的软件流程。 * 她认为代理的三个关键特征是: * 自主性 (Autonomy): 能够委派更高阶的任务。 * 复杂性 (Complexity): 不仅仅是单次任务,而是能够完成复杂的任务,例如“构建一个原型”或“帮助我完美地完成这次会议”。 * 异步性 (Asynchronous): 能够在用户不工作时工作。 * 她举了一个研究员代理的例子,说明代理不仅可以节省时间,还可以提供新的见解和“超能力”。 1. AI 时代的产品管理: * 对于“产品经理已死”的担忧,Chennapragada 持反对意见。她认为,如果产品经理只是处理流程,“那么你就需要思考价值是什么”,但如果他们专注于理解用户需求、确定构建什么、构建原因以及如何获得采用,那么他们的角色将变得更加重要。 * 她看到 AI 工具赋予了工程师、用户研究员和设计师更多能力,让他们能够利用 AI 专家来完善他们的想法,从而解锁了潜在的优秀想法。 * 她提到自己常用的一种 AI 用法是“WWXD”(What Would X Do?),例如询问“Satya 会如何看待我们正在推广的这套对话或想法”。 1. 应对快速变化的 AI 格局: * Chennapragada 描述了当前科技周期的压缩性,以周和月为单位,与过去的年和十年不同。 * 她指出,面临的挑战是如何在快速变化的技术与难以改变的人类习惯和组织变革管理之间取得平衡。 * 她提到了微软正在进行的“前沿计划 (Frontier program)”,旨在通过让早期采用者体验未来一年的尖端实验性功能来应对这一挑战,而不必等待整个公司改变。这是一个在企业内部“机构化和操作化我个人生活在未来一年的模式”的方式。 1. 从零到一产品构建的经验: * Chennapragada 分享了她从零到一产品构建中学到的教训,强调“先解决问题再扩展规模 (solve before scale)”。这意味着在早期阶段要对广泛的探索和 Lurches 感到舒适,避免过早地固定在某个本地最佳点上。 * 她警告了过早依赖“成人指标 (grownup metrics)”的危险性,例如 CTR 或留存率,因为在用户较少或产品处于早期阶段时,这些指标可能意义不大。她建议关注定性反馈和少数几个产品真正擅长的事情。 * 她提出了一个框架来评估从零到一产品的时机:寻找至少两个“拐点 (inflection points)”,包括技术转变、用户行为转变和商业模式转变。 1. 个人经历和见解: * 她分享了自己从事脱口秀喜剧的爱好,并从中学习到产品构建的经验,例如快速迭代、从用户那里获得直接反馈以及面对有时“不讨人喜欢”的反馈保持韧性。她甚至在准备一个关于 AI 和科技的脱口秀段子。 * 她谈到了自己在 Google(特别是 Google Lens 和 Google Now)和微软的工作经历,以及她作为 Satya Nadella 和 Sundar Pichai 的技术顾问的经历,称赞他们都是杰出的领导者,但风格不同。Sundar 擅长处理复杂的生态系统并保持冷静和深思熟虑,而 Satya 则表现出惊人的学习能力和在宏观与微观层面的操作能力。 * 她认为自己职业生涯中最关键的时刻是在 Google Search 工作期间,尝试推动个性化,虽然最初没有成功,但促使她开发了 Google Now,这让她意识到自己喜欢“看到拐角处的事情并构建产品以迎接挑战”,并且“过早出现与错误一样”。 1. 对产品构建者的建议: * 积极进行原型制作和构建。 * 拥抱自然语言作为新的用户界面进行设计。 * 理解和探索代理的功能。 * 更新自己的认知,不要被过去的经验所束缚,要敢于对 AI 提出更高的要求。 * 在从零到一的产品中,专注于先解决核心问题,而不是过早地追求规模和指标。 * 寻找技术、用户行为和商业模式的拐点。 * 她不同意“编程已死”的观点,认为软件操作员 (Software Operator) 的角色将变得重要,即能够通过更高级的抽象层(如自然语言)来编程。
- Cursor 的崛起与软件开发的未来
主要论点和重要事实: 1. Cursor 的核心愿景:后代码时代和逻辑设计师的兴起 * Cursor 的最终目标是“发明一种全新的编程方式,一种非常不同的构建软件的方式”。 * 他们预见了一个“后代码”世界,工程师将更多地成为“逻辑设计师”,专注于“准确地指定你想要一切如何工作的意图”。 * 这种新方法将是一种“更高层次、更具生产力、在某些情况下也更容易获得的构建软件的方法”。 * 这与目前流行的两种观点不同:一是软件构建将与现在非常相似(文本编辑、正式编程语言),二是未来将完全依赖于与机器人交谈来构建和修改软件(聊天机器人/Slackbot 模式)。 * Cursor 致力于创建一个软件逻辑表示,它“更像英语”,可以在更高层次上编辑和指向,而不是“难以理解的数百万行代码”。 1. Cursor 的惊人增长和成功秘诀 * Cursor 的增长速度“史无前例”,在推出 20 个月后达到了 1 亿美元 ARR,推出两年后达到了 3 亿美元 ARR。 * 增长是“相当一致的指数级增长”,最初的指数级增长感觉“相当缓慢”,直到数字变大。 * 成功的秘诀在于“持续的偏执”,认为产品可以在许多方面变得更好,最终目标是“发明一种全新的编程方式”。 * 专注于产品构建和首先构建自己喜欢的、团队喜欢的,然后根据用户进行调整是重要的。 * 战略性地选择要构建的正确事物和有效优先级划分是很重要的。 * AI 产品构建是一种新的、跨学科的形式,介于普通软件公司和基础模型公司之间,需要在产品卓越性和模型开发方面都做得很好。 * 引文: * “你们在一年半的时间里从 0 美元达到了 1 亿美元 ARR,这是史无前例的。” * “Cursor 是领先的 AI 代码编辑器,正处于改变工程师和产品团队构建软件方式的最前沿。它也是有史以来增长最快的产品之一,在推出 20 个月后达到了 1 亿美元 ARR,推出两年后达到了 3 亿美元 ARR。” * “我认为秘诀在于……持续的偏执,认为这个东西可以在所有这些方面变得更好。最终目标是真正发明一种新的编程方式。” 1. 自定义模型在 Cursor 中的重要性 * 一个“最违反直觉”的发现是,“我们绝对没想到会自己开发模型。” * 然而,“此刻,Cursor 中的每个魔幻时刻都以某种方式涉及自定义模型。” * Cursor 确实使用了最大的基础模型(如 Sonnet、Gemini、GPT),但在成本或速度原因下,对于基础模型无法服务的使用案例,他们使用自己的模型。 * 一个核心例子是自动补全功能,它需要极快的速度(300 毫秒内的完成)和低成本,并专注于预测代码更改(diffs)。 * 他们还在大型模型输入和输出的辅助模型,例如搜索相关代码部分(输入端)和将大型模型的草图转换为完整的代码 diffs(输出端)。 * 自定义模型的开发是“非常有帮助的”,可以提高质量(特别是在特定任务中)和速度。 1. 软件开发未来的技能:品味和意图指定 * 在“后代码”世界中,“品味”将变得“越来越有价值”。这不仅包括视觉品味(UI/UX),也包括软件的逻辑和工作方式的“品味”。 * 工程师将更多地感觉自己是“逻辑设计师”,专注于“准确地指定你想要一切如何工作的意图”。 * 未来将更多地关注“是什么”,而不是“如何做”。 * 工程师将能够“不那么小心”,从目前的“极度重要”的谨慎转变为更多地关注“品味”。 * “品味”是指“对应该构建什么有正确的想法”,以及“轻松地将其转化为你想要构建的东西,你想要一切如何工作,你想要它是什么样子”。 1. 克服“Vibe Coding”的挑战 * “Vibe coding”描述了一种状态,即人们生成大量代码,但不理解细节。 * 目前的挑战是,不理解细节会导致无法更改大型生成代码。 * 解决方案在于找到如何“在他们不理解代码的情况下,赋予人们持续控制所有细节的能力”。 * 目前,让有“品味”的人完全控制软件还存在问题,因为 AI 做出的决定可能“难以驾驭”,缺乏控制。 1. 如何成功使用 AI 工具:分解任务和实验 * 目前成功使用这些工具的人往往会“分解事情”,而不是一次性向模型指定所有内容。他们会“指定一点,AI 写一点,审查,指定一点,AI 写一点,审查”。 * 建议不要“写一个巨大的东西,告诉模型准确地做什么”,这可能是“灾难的秘诀”。 * 鼓励开发者在安全的环境中(例如副项目)“明确地尝试摔倒”,通过“雄心勃勃”来“发现这些模型的极限”。 * 许多人低估了 AI 的能力,需要“给 AI 一个公平的机会”。 1. 早期发展的挑战和教训 * Cursor 的起源是“为问题寻找解决方案”,并思考 AI 在未来十年的发展。 * 关键时刻之一是使用 Code Pilot 的早期测试版,这是他们遇到的第一个“真正、真正、真正有用”的 AI 产品,也是“用过的最有用,如果不是最有用,的开发工具之一”。 * 他们最初曾尝试将 AI 应用于机械工程,但由于数据稀缺和个人兴趣不足而放弃。 * 转向编程领域是因为感觉这个领域“尽管已经过了一段时间,但变化不大”,并且认为现有参与者“野心不够”。 * “野心不足”是一个重要的教训:即使一个领域看起来拥挤,如果现有玩家不够雄心勃勃或方法存在缺陷,仍然存在巨大机会。AI 领域的“天花板非常高”。 * 早期的产品构建(包括从零开始构建原型,后转向基于 VS Code)速度非常快(3个月)。 * 关于招聘,“很多人你听说他们招聘太快,我认为我们一开始招聘得太慢了。”找到合适的团队成员“无比重要”。 * 他们通过长时间(有时甚至数年)招聘他们认为“世界一流”的人才来克服这一点。 * 他们使用为期两天的现场“工作测试项目”作为核心面试流程的一部分,这有助于评估工作产品、文化契合度和候选人的积极性。 1. 关于 AI 领域的护城河和可防御性 * Truell 认为,AI 领域需要“持续努力构建最好的东西”,因为“天花板太高了”,可以被“跨越”。 * 他将当前市场比作 1999 年底的搜索引擎市场或 70、80、90 年代的微型计算机市场,这些市场的“天花板都很高”,可以持续地从投资中获得价值。 * 他认为这更像“消费者类型的护城河”,即持续地成为最好的产品,让人们留在你身边,而不是像 Salesforce 那样通过锁定和合同来创造锁定。 * 关键在于,如果在一个可以持续进行“大规模投资”和招聘“优秀人才”来获取价值的领域,就可以获得研发的“规模经济”,并在技术上深入发展,从而形成可防御性。 1. AI 领域未来的赢家 * 市场“非常非常大”,比过去为开发者构建工具的市场大得多。 * 未来将会有“很多不同的解决方案”。 * 然而,Truell 预测会有一家公司构建“构建世界上几乎所有软件的通用工具”,这将是一项“世代相传的巨大业务”。 * 这家公司将负责“让整个过程变得更好”,包括底层的技术(整合最佳提供商,有时自己开发)和产品体验。 * 除了通用工具外,还会有公司专注于“特定细分市场”或“软件开发生命周期中非常特定的一部分”。 * 他不认为这是一个对现有巨头“非常友好”的市场,因为竞争在于谁拥有“最具创新性的产品”,并且切换门槛相对较低。
- 企业中的人工智能:七个经验
这是一份详细的简报文件,回顾了 OpenAI 在企业中应用人工智能的经验。 主要主题和重要观点: * 人工智能正在改变企业运营: 人工智能在提高员工绩效、自动化日常操作和增强产品能力方面取得了显著且可衡量的改进。 * 将人工智能视为新范式: 成功利用人工智能的公司将其视为一个需要实验心态和迭代方法的全新范例。 * OpenAI 的迭代开发方法: OpenAI 采用由研究、应用和部署团队组成的迭代方法,通过客户用例快速学习并加速产品改进。 * 企业人工智能采用的七个经验: OpenAI 根据与企业客户的合作经验总结出七个关键经验,以指导人工智能的成功采用。 七个重要经验(包含引用): 1. 从评估开始: 使用系统化的评估流程来衡量模型在特定用例中的表现。 * “评估是验证和测试模型产出结果的过程。严格的评估会带来更稳定、更可靠的应用程序,这些应用程序能够适应变化。” * 摩根士丹利通过评估其翻译、摘要和人工训练模型的表现,成功地在金融服务中应用了人工智能,提高了金融顾问的效率和有效性。 1. 将人工智能嵌入您的产品: 利用人工智能创造新的客户体验和更相关的互动。 * Indeed 使用 GPT-4o mini 改进了工作匹配功能,通过提供个性化的推荐理由,将工作申请启动率提高了 20%,下游成功率提高了 13%。 1. 现在开始并尽早投资: 越早开始,价值复利效应越显著。 * Klarna 的人工智能助理在几个月内处理了三分之二的客户服务聊天,将平均解决时间从 11 分钟缩短到 2 分钟,预计将带来 4000 万美元的利润提升。 Klarna 员工的广泛采用也加速了内部效率和客户体验的提升。 * “AI 在客户交互方面的突破意味着为我们的客户带来更好的体验、更优惠的价格,为我们的员工带来更有趣的挑战,以及为我们的投资者带来更好的回报。” - Sebastian Siemiatkowski,Klarna 联合创始人兼首席执行官 1. 定制和微调您的模型: 根据您的用例具体情况调整人工智能可以显著提高价值。 * “如果一个 GPT 模型是一套现成的西装,那么微调就是量身定制的选择——您根据组织的特定数据和需求定制模型的方式。” * Lowe's 通过微调 OpenAI 模型,将产品标记准确率提高了 20%,错误检测提高了 60%,从而改进了其电商搜索功能。 * “当我们看到微调 GPT 3.5 在我们的产品数据上取得的结果时,团队的兴奋之情溢于言表。我们知道我们手上有一个赢家!” - Nishant Gupta,数据、分析和计算智能高级总监 1. 将人工智能交到专家手中: 最了解流程的人员最适合用人工智能改进流程。 * BBVA 将 ChatGPT Enterprise 推广到所有员工手中,鼓励他们探索自己的用例。在五个月内,员工创建了超过 2900 个自定义 GPTs,显著提高了信贷风险评估、法律合规查询和客户服务情绪分析的效率。 * “我们认为对 ChatGPT 的投资就是对我们员工的投资。人工智能放大了我们的潜力,帮助我们提高效率和创造力。” - Elena Alfaro,全球人工智能采用主管 1. 解除开发人员的障碍: 自动化软件开发生命周期可以成倍地提高人工智能收益。 * Mercado Libre 开发了名为 Verdi 的平台,该平台由 GPT-4o 和 GPT-4o mini 提供支持,帮助他们的 17000 名开发人员统一和加速人工智能应用程序的构建。这使得库存容量提高、欺诈检测准确率接近 99%、产品描述定制以及订单增加成为可能。 * “我们使用 GPT-4o mini 设计了我们理想的人工智能平台,重点是降低认知负荷,并使整个组织能够迭代、开发和部署新的创新解决方案。” - Sebastian Barrios,技术高级副总裁 1. 设定大胆的自动化目标: 大多数流程包含大量重复性工作,适合自动化。目标要定高。 * OpenAI 在内部自动化平台方面的经验表明,通过将人工智能嵌入现有工作流程,可以自动化数十万项任务,从而提高支持团队的效率和响应能力。 结论: * 利用人工智能的好处来自于开放的实验心态,辅以严格的评估和安全防护措施。 * 成功的公司会围绕高回报、低难度的用例进行调整,在迭代中学习,并将这些经验应用到新的领域。 * 结果清晰且可衡量:更快、更准确的流程;更个性化的客户体验;以及随着员工专注于只有人才能做的事情而带来更有回报的工作。 * Operator 是 OpenAI 代理方法的例子,它可以像人一样在网络上操作,自动化以前需要人工干预的工作流程。 安全与隐私: * 对于企业客户,OpenAI 优先考虑安全、隐私和控制。 * 不使用客户内容来训练模型,企业保留完全所有权。 * 数据在传输和静止时加密,符合 SOC 2 Type 2 和 CSA STAR Level 1 标准。 * 细粒度的访问控制,确保内部治理和合规性。 * 灵活的保留设置,以匹配组织的策略。 更多资源: * OpenAI for Business * OpenAI Stories * ChatGPT Enterprise * OpenAI and Safety * API Platform * OpenAI 的使命是确保通用人工智能造福全人类。 ai-in-the-enterprise
- Practical Guide To Building AI Agents
内容来自 OpenAI 发布的 A practical guide to building agents 该指南系统地介绍了构建基于大型语言模型的智能代理,阐述了代理的定义、适用场景以及区别于传统软件的关键特性,例如自主决策和工具使用。核心设计要素包括模型选择、工具定义和指令配置,并探讨了单代理和多代理的编排模式以应对不同复杂度的任务。此外,文档强调了安全防护措施(guardrails)的重要性,涵盖数据隐私、内容安全和人为干预等方面,旨在帮助读者理解构建安全、可靠且高效的智能代理的关键原则和实践方法。 PDF Download
- MCP 协议详解
模型上下文协议 (MCP) 1. 引言 随着大型语言模型 (LLM) 技术的快速发展,将 AI 与外部数据源和工具集成的需求日益增长。传统方法存在平台依赖性、安全性和灵活性问题。为解决这些挑战,Anthropic 公司于 2024 年 11 月推出了模型上下文协议 (Model Context Protocol, MCP),作为统一的开放标准,使开发者能够以一致方式连接各种数据源、工具和功能到 AI 模型。 2. MCP 的基本概念与价值 2.1 MCP 的定义与起源 MCP 是一种开放标准协议,旨在标准化 LLM 与外部数据源和工具之间的通信。它可被视为 AI 世界的 "USB-C" 接口,提供标准化方式连接不同数据源和工具。 2.2 MCP 诞生的原因 MCP 旨在解决以下问题: * 手动筛选或粘贴外部数据进 LLM 提示的低效性。 * 复杂问题场景下,手动引入信息困难。 * 现有框架(如 LangChain Tools、LlamaIndex)商业化程度高,代码抽象复杂。 * 现有 LLM 平台的函数调用机制存在 API 实现差异,适配成本高。 2.3 MCP 的核心价值 * 生态丰富:提供大量现成插件,无需从零开发。 * 统一性:支持多个 LLM 平台,便于切换。 * 数据安全:敏感数据本地存储,用户可控。 * 标准化:减少重复开发,提升工具复用性。 * 灵活性:不同 LLM 提供商之间可互换。 3. MCP 的架构与工作流程 3.1 MCP 架构 MCP 采用客户端-服务器架构,包括: * MCP Hosts:发起请求的 LLM 应用(如 Claude Desktop、IDE)。 * MCP Clients:主机程序内部组件,连接 MCP 服务器。 * MCP Servers:提供上下文、工具和提示。 * 本地资源:如本地文件、数据库。 * 远程资源:如 API 服务。 3.2 MCP 工作流程 1. 用户向 AI 提出问题。 2. AI 分析可用工具。 3. 选定工具并调用。 4. 工具执行任务并返回结果。 5. AI 结合结果生成最终响应。 6. 向用户展示答案。 4. MCP 核心功能 4.1 功能类型 MCP 服务器提供三类功能: * 资源(Resources):允许 LLM 访问外部数据,如文件系统、数据库、Google Drive。 * 工具(Tools):可被 LLM 调用的函数,如 Git、Sentry、Google Maps。 * 提示(Prompts):预先编写的模板,辅助用户任务。 4.2 通信机制 * 本地通信:基于标准输入输出 (stdio)。 * 远程通信:基于 Server-Sent Events (SSE) 和 HTTP。 * 传输格式:统一使用 JSON-RPC 2.0,保证标准化和可扩展性。 5. MCP 与 Function Call 的比较 特性Function CallMCP标准化程度自定义JSON-RPC 2.0适用场景结构化数据操作复杂工作流协调集成方式需适配特定模型统一接口支持多种 LLM同步性同步异步 5.1 适用场景 * Function Call 适用于: 直接调用特定 AI 模型功能。 注入结构化数据。 性能要求高的场景。 * MCP 适用于: 需要切换不同 LLM。 复杂的动态交互。 连接多种数据源和工具。 6. MCP 的安全性与信任机制 6.1 安全性考虑 * 用户同意:所有数据访问需用户批准。 * 数据隐私保护:主机需确保数据传输安全。 * 工具执行安全:工具调用前需用户明确授权。 * LLM 采样控制:用户可控制 LLM 访问哪些数据。 6.2 安全最佳实践 * 构建强大的授权机制。 * 采用最小权限原则。 * 定期安全审计。 7. MCP 的实际应用案例 7.1 企业与 AI 结合 * 企业数据库集成:连接 SQL Server、CRM 数据库,实现 AI 辅助业务分析。 * 开发工具:支持 Git、GitHub、GitLab,提升代码管理能力。 * 浏览器自动化:结合 Puppeteer 进行网页数据采集。 * 生产力工具:与 Slack、Google Maps 集成,优化协作。 7.2 具体应用案例 * Claude Desktop:用户可配置 MCP 服务器,实现 AI 访问本地和远程数据。 * 企业环境中的应用:OceanBase 通过 MCP 连接数据库、API,提升 AI 处理能力。 * 个人应用:Cursor 代码助手集成 MCP,优化开发体验。 8. MCP 的实现与开发 8.1 MCP 服务器开发方式 * 使用官方 SDK(TypeScript、Python、Java、Kotlin、C#)。 * 自定义 MCP 服务器,扩展特定功能。 * 使用现有 MCP 服务器(官方和社区维护的 MCP Servers)。 8.2 开发步骤 1. 了解可用工具。 2. 构建请求。 3. 由 LLM 决定是否使用工具。 4. 执行工具调用。 5. 接收结果。 6. 生成最终响应。 7. 展示结果。 8.3 开发最佳实践 * 使用 LLM 辅助开发。 * 提供清晰的工具描述。 * 使用 @mcp.tool() 装饰器定义 MCP 工具。 * 采用 MCP Inspector 进行调试。 9. MCP 生态系统与社区 9.1 官方资源 * GitHub:modelcontextprotocol 仓库。 * 官方网站:提供文档和技术资源。 * SDK:支持多种编程语言。 * 社区论坛:促进开发者交流。 9.2 开源 MCP 服务器列表 * 官方 MCP 服务器列表。 * 社区维护的 Awesome MCP Servers。 9.3 贡献与社区参与 * 贡献代码,提交 Pull Requests。 * 参与社区讨论,反馈问题。 * 贡献新 MCP 服务器或客户端。 10. 未来发展趋势 * 跨平台兼容性:增强对更多 LLM 平台的支持。 * 更强的数据安全:优化权限管理和访问控制。 * 智能化工具管理:AI 自动选择最佳工具。 * 更广泛的企业应用:扩展 AI 在企业数据分析中的应用。 MCP 作为标准化协议,提升了 AI 访问外部资源的能力,为 AI 生态带来了更高的可扩展性、安全性和灵活性。
- How I use LLMs-Andrej Karpathy
音频首先概述了ChatGPT及其类似应用的生态系统,强调了OpenAI的ChatGPT作为最初的且功能最丰富的模型。随后,视频深入探讨了与LLM的基本交互方式,包括token的概念和上下文窗口的重要性。Karpathy解释了LLM的训练过程,包括预训练和后训练阶段,并强调了模型知识的时效性。视频还讨论了思考模型的概念,这些模型通过强化学习得到增强,能够进行更深入的推理,尤其在解决复杂的数学和代码问题时表现出色。此外,转录还探讨了LLM的工具使用能力,特别是互联网搜索,并介绍了更高级的功能,如深度研究,这些功能结合了搜索和思考,能够生成详细的报告。最后,视频还涵盖了LLM在处理多模态输入输出方面的应用,包括语音、图像和视频,以及提升用户体验的生活质量功能,如记忆、自定义指令和自定义GPT。 可以查看通义千问内容总结:How I use LLMs
- How I use LLMs
音频来自 Andrej Karpathy 的最新视频 How I use LLMs LLM 生态系统概述与使用指南 1. LLM 发展概述 大型语言模型(LLM)已经成为人工智能技术的核心之一,ChatGPT、Claude、Gemini 和 Mistral 等多个模型在市场上竞争。LLM 的发展得益于 Transformer 结构、RLHF(人类反馈强化学习)和 Mixture of Experts(专家混合)等技术的突破。 目前的 LLM 生态系统涵盖多个层面,包括 API 访问、插件(如 ChatGPT 的 GPTs 和工具调用)、本地部署(如 llama.cpp)以及企业级解决方案。 2. 主要 LLM 产品与比较 ChatGPT(由 OpenAI 提供) * 目前主流的 LLM 之一,支持 GPT-4-turbo 版本。 * 具备工具调用能力,如浏览器、Python 计算、代码解释器等。 * 提供自定义 GPTs 功能,允许用户创建特定任务的 AI 助手。 * 插件生态正在逐步转向 GPTs 形式。 Claude(由 Anthropic 提供) * 强调安全性和对齐性,采用“宪法 AI”方法。 * Claude 3 版本在某些任务上优于 GPT-4-turbo。 * API 访问相对封闭,主要面向企业用户。 Gemini(由 Google DeepMind 提供) * 以前称为 Bard,Gemini 1.5 Pro 版本支持较长上下文窗口。 * 结合 Google 生态(Docs、Sheets 等)进行深度集成。 * 在代码生成和推理任务上有较强表现。 Mistral & Mixtral(开源模型) * Mistral 7B 是一个轻量级但性能强劲的开源模型。 * Mixtral 8x7B 采用专家混合架构,在特定任务上能优于 GPT-3.5。 Llama(Meta 提供) * Llama 2 是开源大模型,Llama 3 预计将在 2024 年推出。 * 适合企业和个人本地部署使用。 3. 交互方式与 LLM 体验 LLM 的交互方式主要包括文本对话、代码生成、工具调用(如搜索、计算)、插件扩展和多模态输入。 文本交互优化 * 提问应清晰、具体,避免歧义。 * 使用“思维链提示”(CoT)提高推理能力。 * 采用示例驱动(Few-shot Learning)提升回答质量。 代码生成与调试 * ChatGPT 具备代码解释器(Code Interpreter),可运行 Python 代码。 * Claude 和 Gemini 在代码推理方面也表现良好。 * 本地部署(如 llama.cpp)适用于对隐私要求较高的场景。 4. LLM 的工具使用 LLM 具备多种工具能力,如 API 访问、浏览器搜索、代码执行等。 常见工具 * Python 计算(用于数学计算、数据分析)。 * 浏览器访问(用于实时信息获取)。 * DALL·E 生成图片(ChatGPT 内置)。 * 代码解释器(用于运行 Python 代码)。 * API 访问(如 OpenAI API, Claude API, Gemini API)。 5. LLM 的多模态能力 LLM 正在从单一文本交互扩展到多模态(文字、图片、音频、视频)处理。 * 图像理解:ChatGPT 和 Gemini 支持图片输入分析。 * 音频处理:Whisper 是 OpenAI 开发的语音识别模型。 * 视频生成:Sora(OpenAI 开发)可以生成高质量视频,但尚未开放。 6. 企业应用与本地部署 LLM 在企业场景中的应用包括: * 文档自动化(法律、财务、医疗文档处理)。 * 客户服务(智能客服和对话机器人)。 * 代码辅助(如 GitHub Copilot)。 * 数据分析(BI 报告、SQL 生成)。 本地部署方案 * llama.cpp(适用于轻量级本地推理)。 * Ollama(提供更简单的模型管理和运行方式)。 * vLLM(高效的推理框架,适用于 GPU 服务器)。 7. 未来趋势与展望 * 更长上下文窗口:Gemini 1.5 Pro 已支持百万级上下文,未来 LLM 可能彻底解决“遗忘”问题。 * 增强记忆能力:未来 LLM 可能支持真正的个性化记忆,而不仅仅是会话上下文。 * 更强的多模态集成:Sora 及其后续产品可能会重塑视频生成领域。 * 本地 AI 发展:高性能的开源模型将让 LLM 部署变得更加普及。 结论 LLM 生态系统仍在快速发展,各大公司正竞相优化模型能力和用户体验。未来,我们可以期待更强的 AI 交互方式、更智能的工具集成以及更广泛的企业应用。对于开发者来说,关注 API 发展、本地部署方案以及 LLM 的多模态能力,将有助于更高效地利用这项技术。
- 解密推理模型
解密推理模型 核心主题: * 推理模型的兴起与传统LLM的区别: 传统LLM主要依赖于规模化(更大的模型和更多的数据),而推理模型则专注于让模型“思考”更长时间,通过复杂的思考过程来解决问题。 * “最近,LLM研究中出现了一种全新的范式:推理。 与标准LLM相比,推理模型以完全不同的方式解决问题。 特别是,它们在提供对问题的最终答案之前,会花费可变的时间来“思考”。 * Long CoT(长链思考): 推理模型的核心特征是生成详细的推理轨迹(Long CoT),这与传统LLM简短的解释不同。Long CoT更像是搜索算法,模型会在其中分解问题、检测错误、探索替代方案。 * “推理模型的主要区别在于它能在回答问题之前“思考”。推理模型的思考仅仅是长长的思维链——或者简称long CoT,有时被称为推理追踪或轨迹——由LLM输出。 * 可验证性与奖励: 推理模型通常在可验证的任务(如数学和编码)上进行评估。可验证性是指存在正确答案或基于规则的验证方法。使用可验证的奖励信号进行强化学习(RL)是训练推理模型的基础。 * “我们仅仅使用验证结果作为使用RL训练的奖励信号;见下文。实现这个想法有很多不同的方法(例如,过程奖励或纯RL),但它们共享使用RL从可验证奖励中学习的共同主题。 这是所有现代推理模型所基于的基本概念。” * DeepSeek-R1系列: DeepSeek-R1-Zero证明了无需监督微调(SFT)也能训练出强大的推理模型。DeepSeek-R1则结合了SFT和RL,以提高对齐性和推理能力。DeepSeek利用Deepseek-v3作为基础模型,采用多token预测目标,并使用量化训练策略,在性能和效率方面都非常出色。 * “DeepSeek-R1-Zero,一个通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地出现了许多强大而有趣的推理行为。” * 知识蒸馏: 通过知识蒸馏可以将大型推理模型的能力转移到更小、更高效的模型中。这是一种有效的训练方法,甚至优于直接对小型模型进行大规模RL训练。 * “将更强大的模型提炼成更小的模型会产生极好的结果,而依赖大规模RL的更小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。” * **推理时策略:**除了训练方法,推理时也存在一些提高模型性能的方法,例如生成更长的CoT(增加计算量)和并行解码(生成多个输出并进行聚合)。 * 关键趋势:**Long CoT:**推理模型生成详细的推理链,允许用户通过控制CoT的长度来动态调整计算成本和推理能力。 * **RL驱动的自进化:**通过正确激励(通常是基于规则的奖励),LLM可以在RL训练中自然地发展出复杂的推理策略。 * **知识蒸馏的有效性:**可以将大型推理模型的能力转移到更小、更高效的模型中。 重要概念/技术: * **SFT(监督微调):**使用人工或模型生成的标注数据对LLM进行微调。 * **RLHF(基于人类反馈的强化学习):**使用人类偏好数据训练奖励模型,并使用该模型通过强化学习来调整LLM。 * RLVR(基于可验证奖励的强化学习): 使用可验证的答案或规则作为强化学习的奖励信号。 * GRPO(Group Relative Policy Optimization): DeepSeek-R1-Zero使用的强化学习算法,它是一种更简单、更高效的替代PPO的方法。 * **Rejection Sampling(拒绝采样):**生成多个输出,然后使用奖励模型或验证方法选择最佳输出,用于训练或推理。 * **Distillation(蒸馏):**将大型模型(教师模型)的知识转移到小型模型(学生模型)。 Open Reasoning Models (开放推理模型) 随着DeepSeek-R1等模型的发布,研究社区正在发布越来越多的开放推理模型。这为研究和创新提供了机会,并允许更广泛的受众访问最先进的推理能力。其他一些值得注意的开放推理模型包括: * Sky-T1 和 Sky-T1-Flash * Bespoke Stratos * LIMO * S1 * RedStar 结论: 推理模型是LLM研究的一个新兴领域,与传统LLM相比,它在问题解决方面采取了不同的方法。通过利用长链思考(Long CoT)、强化学习(RL)和知识蒸馏等技术,推理模型在诸如数学、编码和一般科学等可验证任务中取得了显著的成果。 DeepSeek-R1的发布为构建强大的推理模型提供了一个可复制的蓝图,并为进一步的研究和开发开辟了新的途径。随着该领域的不断发展,我们可以预期未来会看到更多高效、通用的推理模型。 注意事项: * DeepSeek-R1对提示很敏感,“ 在评估 DeepSeek-R1 时,我们观察到它对提示很敏感。Few-shot prompting 会持续降低其性能。”。 * 奖励模型的reward hacking风险需要注意。
- DeepSeek、中国、OpenAI:Lex Fridman访谈
简报:Lex Fridman Podcast #459 – AI Megaclusters and Related Topics 主要主题: * 开源权重 (Open-Weights): 开源权重是指语言模型的模型权重在互联网上可供下载,并附带不同的许可协议,这些协议规定了模型的使用条款。嘉宾讨论了 Llama、DeepSeek、Qwen、Mistral 等模型的开源权重许可的复杂性。 * DeepSeek 的重要性: DeepSeek-R1 模型具有非常宽松的 MIT 许可证,允许商业用途和不受限制的用例。DeepSeek 的论文在技术细节上非常详尽,对其他团队改进训练技术具有实际指导意义。DeepSeek-V3 在生成类人文本方面表现出色。 * 数据安全和隐私: 开源权重允许用户在本地计算机上运行模型,从而更好地控制数据,而使用 API 则会将数据暴露给公司,这些公司可能有不同的数据存储和使用政策。 * 模型架构和训练: 混合专家模型 (Mixture of Experts, MoE) 试图模仿大脑的结构,其中模型的不同部分被激活,从而降低了训练和推理成本。嘉宾还讨论了 all-reduce 和 all-gather 通信在 GPU 网络中的作用,以及 NVIDIA 的标准库。 * GPU 资源和限制: 讨论了 DeepSeek 的 GPU 资源(可能远超公开数据),以及 NVIDIA 的 H100 和 H800 GPU 架构的区别(H800 针对中国市场,降低了互连带宽)。 美国对中国的芯片出口管制旨在限制其在人工智能和军事领域的进展。 * 通用人工智能 (AGI) 的时间表: 嘉宾对 AGI 的时间表进行了预测,认为在 2030 年之后才可能出现对地缘政治构成实际威胁的 AGI。 讨论也涵盖了部署 AGI 技术的实际成本和物理限制。 * 半导体产业和 TSMC 的重要性: TSMC 是全球主要的芯片制造商,几乎所有电子产品都依赖于 TSMC 的芯片。美国正在努力将 TSMC 的生产转移到美国本土,以确保供应链安全。但TSMC真正的价值在研发中心,主要集中在台灣新竹。 * 芯片走私: 讨论了通过新加坡和马来西亚等国家/地区进行 GPU 走私的可能性,以及美国政府试图阻止这种行为的努力。 * 推理 (Inference) 和训练: 推理与传统的分布式系统有很大不同,而训练则需要大量的 GPU 资源。KV 缓存 (KV Cache) 是推理过程中的一个重要优化,它可以压缩表示模型中所有先前的 tokens。 长的上下文长度增加了推理的内存使用量和成本。 * 可验证性 (Verifiability) 的重要性: 为了改进模型的推理能力,需要使用可验证的任务进行训练,例如数学和编码。基于沙箱和强化学习的机器人技术提供了一个无限可验证的任务领域。 * 规模化 (Scaling) 的挑战: 嘉宾强调,仅仅扩大规模并不一定能带来更好的结果。 Jevons Paradox 强调了 AI 进步可能会增加市场需求。 * 能源消耗: 数据中心消耗大量电力,而且每个芯片的功率正在增加。正在探索使用可再生能源和更有效的冷却方法来减少数据中心的碳足迹。 * NVIDIA 的优势: NVIDIA 在硬件和软件方面都具有优势,并且拥有独特的文化,使其能够适应新的应用领域。AMD 在硬件方面有所进步,但在软件方面仍然落后。 * AI 的泛化能力: 重要的是让语言模型能够泛化到新的领域并实时解决问题。可以通过在沙箱中进行训练,并逐步添加新的领域来实现这一点。 重要观点/引语: * 开源权重: "So, the open-weights are you have your fate of data in your own hands." (开源权重意味着你掌握了数据命运) * DeepSeek 的许可证: "The DeepSeek-R1 model has a very permissive license. It's called the MIT license. That effectively means there's no downstream restrictions on commercial use, there's no use case restrictions." (DeepSeek-R1 模型拥有非常宽松的 MIT 许可证,这意味着对商业用途没有任何下游限制,也没有用例限制。) * 混合专家模型 (MoE): "A mixture of experts models attempts to approximate this to some extent...different portions of the model activate." (混合专家模型试图在某种程度上近似这种模型……模型的不同部分被激活。) * 芯片出口管制: "So, the entire semiconductor restrictions, you read them, they're very clear, it's about AI and military civil fusion of technology." (你读一下所有的半导体限制条款,它们都非常明确,是关于人工智能以及军事和民用技术融合的。) * TSMC 的重要性: "You cannot purchase a vehicle without TSMC chips. You cannot purchase a fridge without TSMC chips." (没有 TSMC 的芯片,你买不到汽车,也买不到冰箱。) * NVIDIA 的优势: "Nvidia, it should be said, is a truly special company. There's the whole, the culture and everything, they're really optimized for that kind of thing." (应该说,NVIDIA 是一家非常特别的公司。他们的文化和一切,都是为了实现那种目标而优化的。) * AGI 可能达到的时间: "For me, it's probably after 2030, so I'm not as-That's what I would say." (我认为可能在2030之后,我也是这么认为的。) 其他值得注意的点: * "微波炉帮" (Microwave Gang) Reddit 社区的例子,说明了输入异常数据会导致模型损失激增。 * "YOLO 运行" (YOLO Run) 的概念,即在小规模实验后,将所有资源集中在一个模型架构上。 * 对中国 GPU 资源估算的讨论,SemiAnalysis 认为 DeepSeek 实际上拥有接近 50,000 个 GPU。 * NVIDIA 为中国市场定制的 H800 和 H20 芯片,以满足美国的出口管制要求。 * KV缓存对sequence length以及内存使用上的影响。 * 对未来算力以及能源需求的担忧,已经开始影响数据中心供电以及芯片散热方式。
- DeepSeek R1:突破与思考
核心主题: * DeepSeek R1 的成功并非偶然,而是建立在 DeepSeek 团队长期技术积累和创新突破的基础上,尤其是其 V3 基础模型。 * R1 的核心创新在于其纯强化学习 (Pure RL) 的训练方式,以及“让模型自由思考”的理念,摒弃了当时业界普遍追求的 PRM(Process Reward Model)和 MCTS(Monte Carlo Tree Search)方法。 * DeepSeek R1 的开源和免费使用,以及与搜索功能的结合,抓住了市场空白,为用户带来了全新的体验。 * 该事件引发了对大模型训练成本、中美 AI 竞争等问题的广泛讨论。 关键信息与观点: 1. R1 破圈与社会反响: * DeepSeek R1 的发布引起了广泛关注,甚至在非专业人士中也引发了热议。“今年的 DeepSeek 和 R1 话题真的是破圈的程度⾮常⾼,甚⾄像重庆这样的⼆线城市的⽼头⽼太太们都在关注这些话题,且真⼼关⼼它背后的原理到底是什么。” * 在美国,华盛顿特区对 DeepSeek 的关注度最高,反映了政策制定者对这一技术突破的重视。“在 27 号市场震荡后,华盛顿的⼀众政客疯狂在 Google 上搜索 DeepSeek 试图搞清楚 DeepSeek 到底是个啥?” * R1 的出现甚至影响了股票市场,呈现出“东升西落”的趋势。“这说明 R1 的出现对真实世界的影响同样不容忽视。” * 美国 AI 界顶级领袖如 Marc Andreessen 和 Sam Altman 也对 R1 发表了评论。“⽆论如何,这项⼯作已经得到了美国 AI 界顶级领袖的认可。⽆论是对质量还是对这⼀事件本⾝的认可,其影响⼒已经显⽽易⻅。” 1. 推理模型与 R1 的创新: * 推理模型的本质是让模型自己构建 CoT(Chain-of-Thought,思维链),展示思维过程。“推理模型的本质是让模型⾃⼰构建 CoT,并将前⾯推理的步骤展示出来。” * R1 的核心在于通过激励来增强模型的推理能力。“DeepSeek R1 论⽂的标题就是「Incentivizing Reasoning Capability」。这篇论⽂的核⼼思想正是如何通过激励来增强模型的推理能⼒。” * R1 Zero 使用简单的模板和激励模型,通过纯强化学习进行训练,让模型自主学习如何解决需要推理的任务。“R1 Zero 只做了三件事情:⼀个基础的训练模板,⼀个简单的激励模型,以及 GRPO 策略。” * R1 Zero 的关键发现是,“ R1 Zero literally solves reasoning tasks with more thinking time”。 * R1 在 R1 Zero 的基础上,通过 SFT(Supervised Fine-Tuning)和额外的强化学习,解决了可读性和语言混杂的问题。“通过模型的训练过程,我们能看到从 R1 Zero 到 R1 的转变。” 1. 对 PRM 和 MCTS 的反思: * DeepSeek 尝试 PRM 时发现难以定义和评分推理过程。“他们尝试 PRM 时发现⾮常难以定义和评分。如果推理过程中有 800 字的内容,怎么分步骤?如何将每个步骤打分?有时候前⾯想歪了,后⾯就是因为想歪了所以能得出正确答案。如何评估这些步骤的贡献,成为了⼀个巨⼤的挑战。” * 在语言模型中做 MCTS 很难,因为搜索空间难以控制。“在⼤语⾔模型中,推理每⼀次都是整个词表都能选,还没有围棋的规则。因此,尝试将 MCTS 应⽤到语⾔模型中时,你会发现搜索空间变得⾮常难以控制,也很难定义激励模型。” 1. V3 基础模型的重要性: * R1 的一切起点都是 DeepSeek V3 基础模型。“我们发现我们绕不过去这个模型,并不是 R1 靠⾃⼰左脚踩右脚就升天了。如果没有这个强⼤的基础模型,DeepSeek 不可能做出现在的⼯作。” * V3 的核心技术包括 DeepSeekMoE、MLA 和 FP8 训练。“在 5 ⽉,DeepSeek 发布了 DeepSeek V2,这是⼀起的起点。因为在 V2 中引⼊了DeepSeekMoE、MLA。接着,在 12 ⽉,他们发布了 V3,引⼊了 FP8 和 MTP 这样的训练与推理⽅法。所有这些都为构建强⼤的 V3 模型,打下了 RL 基础。” * V3 的工程优化旨在弥补硬件资源的不足。“所有这些⼯程优化都指向⼀个⽬标——就是没卡。” 1. R1 的产品思考: * R1 抓住了 o1 发布后的时间差,通过免费开放和与搜索功能的结合,带来了全新的体验。“R1 能取得今天的成就,很重要的⼀点是它抓住了⼀个绝妙的时间差。” * R1 + Search 本质上是一个简单的 Agent Framework。“R1 + Search 之所以那么⽕,根本原因是因为它本质上是⼀个⾮常简单的 Agent Framework。” 1. 对流言的回应: * 不存在“满血版”R1,Distill 版本不是真正的 R1。“其实 R1 并没有「满⾎版」,R1 始终只有⼀个版本,就是 R1,其他的 Distill 版本不是 R1。真正的 R1 和 Distill 有巨⼤的差别。” * 600 万训练成本不包括之前的研究、消融实验等。“⾄于这个 600 万的估算,没有包括之前的研究,消融实验,架构探索,算法探索和数据准备等。” * DeepSeek H800 的购买符合美国禁运政策。“对于 DeepSeek 来说,他们的 H800 合规购买是在 1 ⽉ 13 号之前完成的。” * 关于模型自称 ChatGPT 的问题,是数据训练导致,可以通过对齐训练进行调整。“当你问模型「你是谁」时,你就陷⼊了「过度拟⼈化」的陷阱。” 总结: DeepSeek R1 的成功是技术突破、市场机遇和产品策略相结合的结果。它的出现不仅推动了 AI 技术的发展,也引发了人们对 AI 未来发展的更深层次的思考。 这份简报应该能帮助您快速了解 DeepSeek R1 及其背后的故事。
- Andrej Karpathy:Deep Dive into LLMs like ChatGPT
Andrej Karpathy 最新的教学视频地址 大型语言模型(LLM)详解:从原理到应用 1. 引言 近年来,大型语言模型(Large Language Model,LLM)在自然语言处理(NLP)领域取得了突破性进展。以 GPT 系列、PaLM、Claude 等模型为代表,LLM 在文本生成、对话系统、代码生成等任务中展现出强大的能力。本文将详细介绍 LLM 的关键组成部分,包括 Tokenization、预训练、微调、推理、强化学习等,并结合时间线梳理 LLM 发展的重要节点。 2. Tokenization(分词) 在 LLM 训练前,首先需要将文本数据转换为计算机可处理的形式,即 Tokenization。常见的分词方法包括: * 基于规则的分词(如空格拆分) * 基于统计的分词(如 Byte Pair Encoding,BPE) * 子词单元方法(如 WordPiece、SentencePiece) 例如,GPT-3 使用的是 BPE 分词,而 T5 使用 SentencePiece。子词单元方法可以有效减少词表大小,同时保留语义信息。 3. 预训练(Pretraining) 预训练是 LLM 发展的关键步骤,它基于大规模语料库进行无监督学习,主要采用以下任务: * 自回归语言建模(Autoregressive LM, ARLM):如 GPT 系列,目标是预测下一个 Token。 * 自编码语言建模(Autoencoding LM, AELM):如 BERT,目标是预测被 Mask 掉的 Token。 发展时间线: * 2018 年:BERT 提出了 Masked Language Model(MLM),极大提高了 NLP 任务的效果。 * 2020 年:GPT-3 以 1750 亿参数的规模引领 LLM 发展。 * 2022 年:PaLM、OPT-175B、BLOOM 等更大规模的 LLM 相继推出。 4. 模型架构(Transformer) LLM 主要基于 Transformer 架构,由 Vaswani 等人在 2017 年提出。其核心机制包括: * 自注意力机制(Self-Attention):计算不同 Token 之间的相关性。 * 前馈网络(Feedforward Network, FFN):用于非线性变换。 * 残差连接(Residual Connection):防止梯度消失,提高训练稳定性。 其中,多头注意力机制(Multi-Head Attention) 使模型能够关注不同的语义信息,提高文本理解能力。 5. 训练过程 训练 LLM 需要庞大的算力资源,通常包括以下阶段: 1. 数据预处理:清理、去重、Tokenization。 2. 预训练:基于 Transformer 框架,通过 GPU/TPU 训练大规模语料。 3. 微调(Fine-tuning):在特定任务上进行有监督训练。 4. 强化学习调优(RLHF):引入人类反馈优化模型。 计算资源消耗: * GPT-3 训练耗时数月,使用数千张 A100 GPU。 * GPT-4 采用更优化的混合专家(Mixture of Experts, MoE)架构,减少计算成本。 6. 推理(Inference) 训练完成后,模型的推理(Inference)过程主要依赖于: * 缓存机制(KV Cache):减少重复计算,提高响应速度。 * 温度参数(Temperature):控制文本生成的随机性。 * Top-k & Top-p 采样:提高文本生成的多样性。 7. 强化学习调优(RLHF) 强化学习调优(Reinforcement Learning from Human Feedback, RLHF)是 LLM 近年来的重要优化方式。该方法主要通过以下步骤进行: 1. 数据收集:收集人类标注的文本偏好。 2. 奖励模型(Reward Model, RM)训练:学习人类偏好。 3. PPO 训练:使用 Proximal Policy Optimization(PPO)优化语言模型。 RLHF 技术被广泛应用于 GPT-4、Claude 以及其他对齐优化的 LLM 中。 8. 应用场景 LLM 在多个领域展现了强大的能力,包括但不限于: * 代码生成(如 GitHub Copilot, Code Llama) * 自动摘要(如 Google Bard, ChatGPT) * 智能客服(如 AI Chatbot) * 医疗诊断(如 Med-PaLM) 未来发展趋势: 1. 更高效的模型架构:MoE、Sparse Transformer。 2. 多模态融合:结合文本、图像、音频。 3. 更强的推理能力:提升逻辑推理和事实准确性。 9. 结论 大型语言模型在过去几年取得了巨大进展,从 BERT 到 GPT-4,不仅在 NLP 任务上实现了突破,也推动了 AI 在实际应用中的落地。然而,LLM 仍面临计算成本、偏见控制、事实一致性等挑战。未来,如何在保证模型能力的同时降低能耗,提升推理能力,将是 LLM 研究的核心方向。
- Large Language Model Training, Usage, and Limitations
来自Andrej Karpathy 的视频 Deep Dive into LLMs like ChatGPT 大型语言模型(LLM)全面解析 本文旨在帮助普通读者建立对大型语言模型(LLM),如 ChatGPT 的“心智模型”。内容涵盖 LLM 的工作原理、训练流程、优势、局限性及未来发展趋势。 第一部分:LLM 的构建 - 预训练(Pre-training) 1. 数据收集与处理 LLM 训练的第一步是从互联网收集海量高质量、多样化的文本数据。例如,Hugging Face 的 FineWeb 数据集,以及 OpenAI、Anthropic、Google 等公司的内部数据集。 2. Tokenization(分词) 文本首先被转化为 UTF-8 编码的字节流,并进一步压缩成 token 序列。LLM 采用 Byte Pair Encoding(BPE) 算法,合并常见字节对以减少序列长度,提高词汇量。 例如,GPT-4 采用 100,277 个 token 作为基本单位。 3. 神经网络训练 模型通过滑动窗口(通常 4,000-8,000 个 token)学习 token 之间的统计关系,其目标是预测下一个 token 的概率。 • 输入:一段 token 序列 • 输出:所有可能 token 的概率分布 • 损失函数(Loss):衡量预测误差,并通过梯度下降优化模型 4. 神经网络的核心机制 LLM 内部包含 数十亿个参数(权重),可类比 DJ 调音台上的旋钮,训练的过程就是不断调整这些参数,以优化预测能力。 5. 推理(Inference):生成文本 模型根据预测的概率分布抽样生成 token,每次生成的结果可能不同。因此,LLM 生成的文本本质上是训练数据的“重新混合”(remix),但不会完全复述训练数据。 6. 计算资源:GPU 与数据中心 训练 LLM 需要庞大的计算资源,主要依赖于 NVIDIA GPU 及大型数据中心。GPU 擅长并行计算,非常适合神经网络训练。 7. Base Model(基础模型) 预训练后的 Base Model 是一个互联网文本 token 模拟器,但不具备对话能力。其发布包含两部分: 1. 模型代码:描述神经网络的结构和操作 2. 模型参数:数十亿个经过优化的权重 例如,Meta 发布的 Llama 3 就是一个先进的 Base Model。 第二部分:LLM 的后训练(Post-training) 1. 从 Base Model 到助手模型 后训练的目标是让 LLM 具备对话能力,如 ChatGPT,就是在 Base Model 的基础上进行优化。 2. 有监督微调(Supervised Fine-tuning, SFT) 模型通过学习人工标注的对话数据,模仿人类助手的回答方式。 • 数据来源:人类标注员提供最佳答案 • 目标:训练模型生成 “有帮助(Helpful)、真实(Truthful)、无害(Harmless)” 的回复 3. Prompt 格式与特殊 token 不同 LLM 采用不同的对话格式。例如,GPT-4 使用特殊 token IM_START 和 IM_END 来标记用户和助手的对话轮次。 4. 人类标注 + LLM 辅助生成数据 目前数据标注流程通常由 LLM 生成初稿,再由人类标注员修改,而非完全手动编写。 第三部分:LLM 的局限性 1. 幻觉(Hallucination) LLM 可能会编造信息。缓解方法: • 允许 LLM 说“不知道”,通过训练让模型在不确定时拒绝回答 • 外部工具(如 Web 搜索) 提供实时信息 2. 记忆与上下文窗口 • 神经网络参数中的知识 = 模糊的长期记忆(类似于一个月前读过的内容) • 上下文窗口中的 token = 短期工作记忆(类似于刚刚经历的事情) • 最佳策略:直接提供相关信息,而不是依赖 LLM 记忆 3. 计算能力的限制 LLM 在每个 token 上执行的计算是有限的。因此,复杂推理需要逐步展开,例如: • 逐步推理:拆解问题并显示中间步骤可提高准确性 • 代码解释器(Python 计算):让 LLM 生成代码解决计算问题,而不是仅依靠内部计算能力 4. 计数和拼写的局限性 由于 Tokenization 方式,LLM 不擅长 处理计数和拼写任务。可通过代码解释器等工具弥补。 5. “瑞士奶酪”现象 LLM 在大多数任务上表现出色,但在某些情况下会失败,例如: • 能解决奥林匹克数学题,但无法判断 9.11 和 9.9 谁更大 第四部分:强化学习(RL)与人类反馈(RLHF) 1. 强化学习(Reinforcement Learning, RL) RL 允许 LLM 通过试错自行发现最佳解法,而非依赖人工标注。例如: • 让 LLM 生成多个解法,评估其质量,并奖励表现好的方案 • 这种方式类似于人类学习过程: 1. 预训练 = 阅读课本 2. 监督微调 = 学习专家解法 3. 强化学习 = 反复练习,找到最优方法 2. 人类反馈强化学习(RLHF) 在难以自动评估优劣的任务(如写笑话)中,通常采用 RLHF: • 训练奖励模型,模仿人类的评分标准 • 人类为多个候选答案打分,并训练 LLM 模仿最高分的答案 RLHF 的局限性: • 奖励模型易被“博弈”,可能导致模型优化方向偏离目标 • 主要用于微调,效果不如可验证领域的强化学习 第五部分:未来趋势 1. 多模态模型(Multimodal Models) 未来的 LLM 不仅能处理文本,还将具备音频、图像处理能力,即: • 能听、能说、能看、能绘画 • 这些模态可以被 Tokenization,并采用相同的 LLM 训练方法 2. 获取 LLM 资源 • 专有模型(如 GPT-4、Gemini) 需通过 API 购买 • 开源模型(如 Llama 3) 可在 Together AI、Hyperbolic 找到 • 本地运行的轻量版开源模型 可通过 Hugging Face 获取 总结 • LLM 是强大但不完美的工具,能显著提升工作效率,但需仔细检查输出 • 理解其局限性(幻觉、记忆不足、计算限制),合理使用 • 未来 LLM 将更加多模态化,扩展至音频、图像领域 使用 LLM,就像使用工具箱中的一件工具,而不是全能助手。
- DeepSeek 最新Janus-pro多模态模型论文解读
Janus-pro 论文地址 概述 这份技术报告介绍了 Janus-Pro,它是之前工作 Janus 的升级版本。Janus-Pro 主要通过三个方面的改进,即优化的训练策略、扩大的训练数据和更大的模型规模,在多模态理解和文本到图像的指令跟随能力上取得了显著进展,同时提高了文本到图像生成过程的稳定性。报告强调了该模型在统一多模态模型方面的突破性进展,并提供了公开的代码和模型。 核心要点 1. 模型架构与改进: * Janus-Pro 架构: Janus-Pro 沿用了 Janus 的核心设计,采用了解耦的视觉编码方法,分别用于多模态理解和图像生成。具体来说,多模态理解使用 SigLIP 编码器提取图像特征,而图像生成使用 VQ 分词器将图像转换为离散 ID,然后通过各自的适配器映射到 LLM 的输入空间。整个模型基于自回归框架。 * 关键改进: Janus-Pro 的主要改进体现在以下三个方面: * 优化的训练策略:第一阶段(Stage I): 增加了在 ImageNet 数据集上的训练步数,以更好地建模像素依赖关系。 * 第二阶段(Stage II): 放弃了 ImageNet 数据,直接使用正常的文本到图像数据进行训练,提高了训练效率和整体性能。 * 第三阶段(Stage III): 调整了不同类型数据集的比例,适当减少了文本到图像数据的比例,以在保持视觉生成能力的同时提高多模态理解性能。 * 数据规模扩大:多模态理解: 增加了约 9000 万个样本,包括图像字幕、表格、图表和文档理解数据。 * 视觉生成: 引入了约 7200 万个高质量合成美学数据,将真实数据和合成数据的比例调整为 1:1,提高了生成图像的稳定性和美学质量。 * 模型规模扩大: 模型规模从 1.5B 参数扩展到 7B 参数,验证了视觉编码解耦方法的可扩展性,并在更大规模的 LLM 上观察到更快的收敛速度。 1. 性能评估: * 多模态理解:在 MMBench 基准测试中,Janus-Pro-7B 的得分达到 79.2,优于 Janus (69.4)、TokenFlow (68.9) 和 MetaMorph (75.2) 等最先进的统一多模态模型。 * 在其他多模态理解基准测试 (POPE, MME-Perception, GQA, MMMU) 的平均性能方面,Janus-Pro 也优于其他模型(图1a)。 * 报告强调,Janus-Pro 通过解耦视觉编码,减轻了多模态理解和生成任务之间的冲突,从而提高了性能。 * 即使与参数量更大的模型相比,Janus-Pro 在大多数基准测试中仍具有竞争力,例如在多数指标上超越了TokenFlow-XL (13B)。 * 文本到图像生成:在 GenEval 指令跟随排行榜上,Janus-Pro-7B 的得分为 0.80,优于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium (0.74) (图1b)。 * 在 DPG-Bench 上,Janus-Pro 也取得了 84.19 的高分,展示了其在处理密集指令方面的卓越能力。 * 定性结果(图2和图4)表明,Janus-Pro 在短提示下也能生成更稳定、细节更丰富、视觉质量更高的图像,并且能够生成简单的文本。 1. 模型架构细节 * 视觉编码解耦: 采用了独立的视觉编码器来处理多模态理解和图像生成任务,从而缓解了任务冲突,提升了整体性能。 * 统一的自回归 Transformer: 所有的模态特征(图像和文本)都被统一输入到同一个自回归 Transformer 中进行处理。 * 适配器: 使用适配器将图像特征或离散 ID 映射到 LLM 的输入空间。 1. 训练细节: * 基础 LLM: 使用 DeepSeek-LLM (1.5B 和 7B) 作为基础语言模型,支持最大序列长度为 4096。 * 视觉编码器: 用于理解任务的视觉编码器是 SigLIP-Large-Patch16-384,图像生成的视觉编码器使用大小为16384的码本。 * 训练框架: 模型使用 HAI-LLM 进行训练和评估,这是一个基于 PyTorch 的轻量级高效分布式训练框架。 * 训练时间: 1.5B 模型在 16 个节点上训练约 9 天,7B 模型在 32 个节点上训练约 14 天。 * 数据预处理: 多模态理解数据将长边调整为 384,短边填充背景色;视觉生成数据将短边调整为 384,长边裁剪为 384。训练过程中使用序列打包来提高效率。 1. 局限性: * 多模态理解: 输入分辨率限制为 384 × 384,这会影响其在细粒度任务(如 OCR)中的性能。 * 文本到图像生成: 低分辨率以及视觉分词器引入的重建损失导致生成的图像在语义内容丰富的同时,仍缺乏精细的细节。 重要引述 * "为了解决这个问题,Janus [46] 提出了解耦视觉编码,这缓解了多模态理解和生成任务之间的冲突,在这两项任务中都取得了出色的性能。" * "在本文中,我们介绍了 Janus-Pro,它是 Janus 的增强版本,在训练策略、数据和模型规模三个维度上进行了改进。" * "我们的发现表明,即使 LLM 参数固定,模型也可以有效地建模像素依赖性,并根据类别名称生成合理的图像。" * "实验证明,在合成数据上训练时,模型收敛速度更快,并且生成的文本到图像输出不仅更稳定,而且在美学质量方面也得到了显着提高。" * "总的来说,Janus-Pro 优于以前最先进的统一多模态模型以及某些特定任务模型。" * "我们观察到,当使用更大规模的 LLM 时,多模态理解和视觉生成的损失收敛速度都比小型模型显着提高。" * "Janus-Pro-7B 在 GenEval 上的总体准确率达到 80%,优于所有其他统一或仅限生成的方法。" 总结 Janus-Pro 通过在训练策略、数据和模型规模上的改进,显著提高了多模态理解和文本到图像生成能力,展示了视觉编码解耦方法的可行性和有效性。该模型在多个基准测试中均取得了优异的性能,并在视觉质量和细节上有所提升。尽管仍存在分辨率和细节方面的局限性,但 Janus-Pro 作为统一多模态模型的代表,为未来研究指明了方向。
- DeepSeek-R1 论文解读
新鲜出炉的 DeepSeek R1 论文解读: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf * 强化学习 (RL):DeepSeek-R1 的核心在于使用大规模强化学习来提升模型推理能力。与以往依赖大量监督数据的做法不同,DeepSeek-R1 探索了纯强化学习在推理能力上的潜力,并发现即使没有监督微调 (SFT) 作为预备步骤,模型也能通过强化学习自主发展推理能力。 * DeepSeek-R1-Zero:DeepSeek-R1-Zero 模型是直接在基础模型上应用强化学习训练得到的。 它不依赖于任何监督微调数据,而是通过纯粹的强化学习过程自我演化,从而发展出强大的推理能力。 DeepSeek-R1-Zero 在训练过程中自然地涌现出诸如自我验证、反思和生成长思维链 (CoT) 等强大的推理行为。 该模型通过增加测试时的计算量,逐步提升解决复杂推理问题的能力。 尽管 DeepSeek-R1-Zero 展现出强大的推理能力,但它也面临诸如可读性差、语言混合等问题。 * 冷启动数据 (Cold Start Data):为了解决 DeepSeek-R1-Zero 的不足,DeepSeek-R1 引入了少量高质量的冷启动数据。这些数据用于微调基础模型,作为强化学习的初始起点,可以加快收敛速度,并提高模型生成内容的质量和可读性。冷启动数据包括长思维链 (CoT) 示例、带有反思和验证的详细答案,以及经过人工注释器处理的 DeepSeek-R1-Zero 输出。 通过精心设计的冷启动数据模式,DeepSeek-R1 相比 DeepSeek-R1-Zero 展现出更好的性能。 * 多阶段训练 (Multi-stage Training):DeepSeek-R1 采用多阶段训练流程,包括两个强化学习阶段和两个监督微调 (SFT) 阶段。第一个强化学习阶段侧重于增强模型的推理能力。 接下来的监督微调阶段则通过拒绝采样,收集新的 SFT 数据,并结合 DeepSeek-V3 的监督数据来增强模型的非推理能力。 第二个强化学习阶段则旨在使模型更好地符合人类偏好,同时进一步提升模型的推理能力。 * 语言一致性奖励 (Language Consistency Reward):为了解决强化学习过程中出现的语言混合问题,DeepSeek-R1 在强化学习训练中引入了语言一致性奖励。该奖励会根据思维链中目标语言词汇的比例进行计算,使得输出更符合人类的阅读习惯。 * 知识蒸馏 (Distillation):DeepSeek-R1 还探索了将大型模型(教师模型)的推理能力提炼到小型模型(学生模型)中的方法。通过使用 DeepSeek-R1 生成的数据集对小型模型进行微调,发现这种直接的蒸馏方法能显著增强小型模型的推理能力。例如,使用 DeepSeek-R1 的推理数据微调 Qwen 和 Llama 系列模型,所得的蒸馏模型在基准测试中表现出色。 蒸馏模型在推理能力上优于通过强化学习训练的小型模型。这表明大型模型发现的推理模式对于提高推理能力至关重要。