AI说AI | 小宇宙 - 听播客，上小宇宙

5已订阅

AI说AI

Jiavan

单集更新

节目详情

Vol 4 | DeepSeek R1论文：用强化学习点燃大模型的推理能力
🎙️【AI 推理新革命！DeepSeek-R1 用强化学习让大模型智商狂飙】🚀 🌟 本期焦点：无需监督学习，RL 如何让 AI 自主进化推理力？ DeepSeek 最新研究颠覆传统：纯强化学习（RL）竟能让大模型跳过监督微调（SFT），从零进化出超强推理能力！从数学竞赛到代码生成，DeepSeek-R1 系列用数据证明：RL 才是解锁 AI 推理潜力的「终极密码」🔑 🧠 模型双雄：R1-Zero 与 R1 的技术突破 1. DeepSeek-R1-Zero：纯 RL 的奇迹诞生直接对基础模型应用 GRPO 算法，在 AIME 2024 数学竞赛中，Pass@1 分数从 15.6% 猛增至 71%，多数投票后达 86.7%，性能追平 OpenAI-o1-0912！模型自发涌现「自我反思」行为：解题时主动重评估思路，甚至用拟人化语气纠正错误，展现类人类推理逻辑。 2. DeepSeek-R1：冷启动 + 多阶段优化升级用数千条长链思维（CoT）数据预热，结合 RL 与拒绝采样 SFT，解决 R1-Zero 的可读性与语言混合问题。性能直逼 OpenAI-o1-1217：AIME 2024 得 79.8%，MATH-500 达 97.3%，Codeforces 评级 2029 超越 96.3% 人类选手。 💡 三大技术创新点亮推理之路 * GRPO 算法革新：抛弃传统 Critic 模型，通过分组策略优化降低训练成本，用优势函数精准平衡奖励信号。 * 规则化奖励模型：仅用「答案正确性」和「格式规范」约束，规避神经奖励模型的「奖励欺骗」风险。 * 推理蒸馏革命：将 R1 推理模式迁移到小模型，Qwen-32B 蒸馏后 AIME 得分 72.6%，远超同规模 RL 训练模型。 📊 硬核数据：R1 系列的推理统治力 * AIME 2024:79.8% Pass@1，超越 OpenAI-o1-1217（79.2%） * MATH-500:97.3% Pass@1，持平 o1-1217 * Codeforces：2029 评级，超越 96.3% 人类选手 * 知识问答 MMLU：90.8%，逼近 o1-1217 的 91.8% ⚙️ R1 训练四步法：从冷启动到全能进化 1. 冷启动预热：用数千条长 CoT 数据微调模型，打好推理基础。 2. 推理向 RL：聚焦数学 / 代码任务，强化多步思考，引入「语言一致性奖励」。 3. 拒绝采样 SFT：用 60 万推理数据 + 20 万非推理数据（写作 / 事实 QA）训练，平衡推理与通用性。 4. 全场景 RL：结合规则奖励与人类偏好，炼成全能模型。 🔮 未来挑战与开源贡献 * 现存问题：中文事实问答因安全 RL 拒绝回答致性能波动，多语言推理需优化。 * 开源计划：公开 R1-Zero、R1 及 6 个蒸馏模型（1.5B-70B），助力小模型推理研究。 🎧 本期金句「当 RL 让模型学会自我进化，推理不再是人类专利 ——DeepSeek-R1 证明，给 AI 正确的『激励』，它能自己攀上推理高峰。」 🔗 论文链接：arXiv:2501.12948v1
6分钟 · 1 年前
2
0
Vol 3 | Transformer论文：NIPS-2017-attention-is-all-you-need
🤖《Attention Is All You Need》播客笔记：Transformer 如何重塑 AI 未来 2017 年 NIPS 会议上，Google Brain 的《Attention Is All You Need》用纯注意力机制颠覆 NLP 界，为 GPT、BERT 等大模型奠基。论文提出的 Transformer 架构抛弃传统 RNN 和 CNN，以全新思路解决序列建模难题。 🌟 颠覆传统：Transformer 的核心突破 1. 并行计算碾压序列依赖传统 RNN 如 LSTM 按时间步逐个处理序列，长文本训练效率低下。而 Transformer 的自注意力机制让每个 token 直接关联全局信息，计算复杂度为 O (n²・d)。当序列长度 n 小于表示维度 d（如 512）时，运算速度远超 RNN，彻底告别 “排队计算” 模式。 2. 长距离依赖的终极解法 CNN 需堆叠多层（如 ConvS2S 需 O (log n) 层）才能捕获长距离依赖，而 Transformer 通过注意力权重矩阵，让每个位置直接 “看到” 句子首尾，如同读小说时瞬间关联首尾伏笔，精准处理翻译、摘要等长文本任务。 🧠 核心组件：Transformer 的工作密码 1. 缩放点积注意力：精准关联信息公式Attention(Q,K,V)=softmax(QKᵀ/√dₖ)V揭示其原理：查询向量 Q 与键向量 K 算点积，除以√dₖ防止梯度消失，再通过 softmax 转权重后加权求和值向量 V。如翻译时，解码器的 Q 会 “询问” 编码器的 K/V，定位最相关输入信息。 2. 多头注意力：多维度并行处理将 Q、K、V 拆成 8 个头并行计算注意力后拼接，如同 8 个翻译专家各司其职（有的专注语法，有的抓关键词），最终汇总结果，比单头注意力更全面。 3. 位置编码：赋予模型 “时序感” 因 Transformer 不依赖时序计算，论文用正弦余弦函数注入绝对位置信息（如PE(pos,2i)=sin(pos/10000^(2i/d_model))），让模型明确 token 在句中的位置，避免语义混乱。 🚀 实验数据：用实力碾压传统模型 * 英德翻译：Transformer 大模型以 28.4 BLEU 分超越所有集成模型，8 块 P100 GPU 仅用 3.5 天完成训练，计算量比 ConvS2S 节省超 90%。 * 英法翻译：单模型达 41.0 BLEU 分，训练成本不足旧 SOTA 模型的 1/4，实现效率与效果双突破。 💡 深远影响：AI 领域的 “蝴蝶效应” * 打破归纳偏置：RNN 依赖时序、CNN 依赖局部性，而 Transformer 以纯数据驱动的注意力机制，为图像、语音等多模态任务铺路。 * 可解释性提升：可视化注意力分布能直观看到模型 “关注” 的关键词（如翻译时动词对应位置），为医疗、法律等敏感领域应用提供可能。 📌 结语 Transformer 为 AI 装上 “全局视野”，从机器翻译到 ChatGPT，从 Diffusion 模型到多模态大模型，这场 “Attention 革命” 仍在持续。而一切辉煌，都始于这篇仅用注意力机制便重塑学界的里程碑论文。
9分钟 · 1 年前
8
0
Vol 2 | Fellou：从浏览到行动的智能飞跃
🎧 Fellou 播客 Show Notes：AI 浏览器如何重塑数字交互新纪元 🌟 开篇：颠覆传统的「代理浏览器」诞生全球首款 AI 代理浏览器 Fellou 由北京蒸汽记忆科技开发，2025 年 5 月发布后迅速迭代至 2.0 版本1。它打破「被动浏览」模式，成为能替用户执行复杂任务的「数字同事」，比如自动填写表格、生成营销文案，甚至在 GitHub 创建代码仓库2。官方称其完成任务速度比手动快 5.2 倍，用户输入量减少 94%3。 🛠️ 核心能力：从「看网页」到「做事情」的突破 ✨ 深度行动技术（Deep Action）自然语言指令秒变自动化工作流！用户说「规划日本 7 天文化旅行」，Fellou 会自动生成交通、活动、预算全明细8；输入「找 50 美元环保礼物」，它能筛选商品并添加到购物车9。 🔍 跨平台深度搜索黑科技不仅能搜公开网页，还能登录 Quora、LinkedIn 等私密平台抓取数据，甚至生成可视化报告4。比如搜索「孟买班德拉西区宠物友好公寓」，它会精准过滤不符合条件的房源10。 🧠 主动智能与影子工作区根据用户习惯预测需求，偷偷在后台处理任务（如自动回复邮件），不打扰主界面操作5。开发者还能通过开源 Eko 框架定制智能体，构建专属自动化流程11。 💡 用户体验：效率拉满的「数字助手」 * 🚀 速度与流畅度：2.0 版本比 1.x 快 1.3-1.5 倍，Web 抓取被用户赞「极其快速」317。 * 🌐 跨设备同步：时间线功能让用户随时「回到上次中断的地方」，手机 / 电脑进度无缝衔接6。 * 🎨 生成式 UI：界面能根据需求自动生成，非开发者也能轻松用 AI「搭积木」7。 🌍 市场竞争与挑战 ⚡ 竞争优势 * 能访问需登录的私有平台，研究人员直呼「刚需」12； * 开源框架吸引开发者，未来可能形成生态壁垒11。 ⚠️ 现实挑战 * 目前仅邀请制测试，用户规模受限13； * 定价不透明，企业采购决策难14； * 西方市场扩张面临文化差异15。 🚀 未来蓝图：贾维斯式智能代理？ Fellou 计划添加密码管理器、移动端适配（iOS/Android），Eko 框架将支持多代理协作和代码执行1820。创始人杨谢希望它成为「人人可用的智能伙伴」，但能否真正取代传统浏览器，还需看隐私保护（如本地数据加密）与功能落地的平衡1619。 📌 互动话题 * 🤔 你愿意让 AI 浏览器替你「代劳」80% 的线上操作吗？ * 🔐 隐私与效率之间，你更看重哪一个？ 🔗 想体验 Fellou？可关注官网 fellou.ai 或 GitHub 获取测试资格21～
9分钟 · 1 年前
7
0
Vol 1 | 深入解析 AI 浏览器新星 Dia
《深入解析 AI 浏览器新星 Dia》播客 Show Notes 📌 核心主题聚焦 AI 原生浏览器 Dia 的技术创新、市场定位及未来愿景，探讨其能否重新定义人类与互联网的交互方式。 🔍 产品亮点：AI 如何重塑浏览体验？ 1. 深度集成的 AI 助理嵌入地址栏与侧边栏，支持智能写作辅助（按用户语调生成邮件、评论）、多模态搜索（在聊天与搜索模式间切换）及网页内容总结123。自动化 “技能” 可处理购物、日程安排等任务，提升生产力4。 2. 语境理解能力记忆用户历史交互与标签页内容，创始人称其语境理解能力是 ChatGPT 的 “100 倍”5。 3. 设计与定位基于 Chromium 开发，采用极简水平标签页界面，区别于 Arc 浏览器的垂直布局6。核心定位：将 AI 作为 “计算环境” 而非附加功能，目标是成为 “网络操作系统”7。竞争格局：Dia 的优势与挑战 * 差异化优势对比传统浏览器（Chrome、Edge）：从底层集成 AI，而非后期添加功能9。对比 AI 聊天工具（ChatGPT）：直接在浏览场景中提供服务，无需跳转平台10。 * 现存挑战仅支持 macOS 14+，需邀请码内测，用户基数有限811。面临 Google（计划在 Chrome 集成 Gemini）、Opera（Neon 浏览器）等巨头竞争1112。公司背景与融资动态 * The Browser Company2019 年成立于纽约，曾推出 Arc 浏览器，现战略重心转向 Dia1314。创始人 Josh Miller 曾任白宫产品总监，愿景是通过浏览器构建 “全新计算环境”1516。 * 融资里程碑累计融资 5500 万美元，A 轮融资 5000 万美元于 2024 年 3 月完成，估值达 5.2 亿美元1718。用户反馈与技术创新 * 早期测试者评价认可 AI 侧边栏总结、隐私设计（本地数据加密）及可自定义 “技能”19。 * 技术架构基于 Chromium，具备屏幕上下文感知能力，支持自动切换聊天与搜索模式20。未来路线图 1. 短期（6 周内）：优化性能，实现基础功能（速度、稳定性）21。 2. 中期（9-11 月）：推出 Arc 类似功能（垂直侧边栏、标签管理）22。 3. 长期：打造高度个性化的 “AI 代理” 浏览器23。 💬 播客讨论话题 1. “AI 原生” 理念能否颠覆传统浏览交互？ 2. 从零构建的 AI 浏览器（如 Dia）vs 传统浏览器集成 AI，谁更具潜力？ 3. 邀请制与 Mac 独占策略对 Dia 发展的利弊？ 4. Dia 的 “AI 计算环境” 愿景是否可能成为 “浏览器界的 iPhone”？ 📝 总结 Dia 以深度 AI 集成与语境理解为核心，试图从工具层重构互联网交互，但早期阶段的平台限制与巨头竞争仍是关键挑战。其 “AI 即计算环境” 的愿景能否落地，值得持续关注。
8分钟 · 1 年前
2
0
Vol 0 | Karpathy带你深入探索ChatGPT等大语言模型
本期节目，Andrej Karpathy 将带您深入理解ChatGPT等大型语言模型（LLMs）的构建、运作机制、核心能力、固有局限及未来发展趋势。 1. LLM的训练三阶段LLM的训练是一个多阶段过程，从海量数据中学习复杂模式： * 预训练（Pre-training）：目的：构建“基础模型”。模型从海量互联网文本数据（如Common Crawl, FineWeb，高达44TB，约15万亿个标记/token）中学习知识和统计模式。过程：数据经过URL过滤、文本提取、语言过滤（例如，超过65%为英语）、去重和个人身份信息（PII）移除等严格处理。核心任务：预测文本序列中下一个出现的“标记”（token）。标记是文本的最小数字单位，GPT-4使用约10万个不同标记。产物：一个“互联网文档模拟器”，能生成类似互联网文档统计特性的文本。 * 监督式微调（Supervised Fine-Tuning, SFT）：目的：将基础模型转化为能够与人类对话并充当“助手”的模型。数据：通过人类标注者（遵循“乐于助人、真实、无害”等指导原则）创建或辅助生成（LLM本身也参与）的对话数据集进行训练。特点：计算成本远低于预训练，但数据质量至关重要。模型模仿人类标注者的行为和“个性”。 * 强化学习（Reinforcement Learning, RL）：目的：进一步提升模型推理、问题解决和规划能力，使其能够发现新的“思考策略”。过程：模型针对提示生成多个解决方案（“尝试”），然后通过外部评估（如与正确答案比较，或使用“奖励模型”模拟人类偏好）判断质量，表现好的方案会被“强化”。优势：在可验证领域（如数学、编程）显著提升准确性，并能学习生成“思维链”（chain of thought），即逐步推导解决复杂问题。 RLHF（人类反馈强化学习）：适用于不可验证领域（如创意写作）。但训练出的“奖励模型”可能被“游戏”或欺骗，限制了RLHF的长期效果。 2. LLM的特点和局限性（“LLM心理学”） * 知识的性质：LLM参数中的知识是模糊的“回忆”，而上下文窗口中的信息则是模型可直接访问的“工作记忆”。 * “瑞士奶酪模型”：LLM在许多领域表现出色，但可能在看似简单、随机的特定任务上（如简单数学比较、计数或字符级操作）“犯蠢”，存在“漏洞”。 * 幻觉（Hallucinations）：模型可能“编造”事实。通过在训练中加入“我不知道”的回答示例或引入工具使用（如网络搜索）可以缓解。 * 思考方式：模型需要“标记”才能“思考”。一次性处理大量计算会降低准确性。让模型逐步推导或使用外部工具（如代码解释器）效果更好。 * 非人格化：LLM没有持续的自我意识或记忆；每次对话都是一个从头开始的独立实例。模型的身份信息（如“我由OpenAI开发”）通常是通过特定训练数据或系统消息“硬编码”进去的。 3. 有效使用LLM的建议 * 将LLM视为工具箱中的工具，而非无所不能的专家。 * 始终检查并验证LLM生成的内容，尤其是在事实性或关键任务中。 * 提供充足上下文：对于需要精确回忆的信息，最好直接将其粘贴到提示中，作为模型的工作记忆。 * 引导思考过程：鼓励模型分步思考，而非直接给出最终答案。 * 利用工具：对于精确的计算、计数或字符操作等任务，请求模型使用代码解释器或网络搜索等工具。 4. LLM的未来发展趋势 * 多模态：模型将能原生处理和生成文本、音频和图像等多种形式的数据。 * 智能体（Agents）：模型将能执行更长时间、更复杂的任务链，并能与用户互动以报告进展和纠正错误。 * 普适与无形：LLM将更紧密地集成到各种工具和日常生活中，甚至能替用户执行计算机操作。 * 测试时学习（Test-time training）：模型在推理阶段进行参数更新的研究。 5. 如何获取和使用LLM * 专有模型：通过提供商官方网站访问（如OpenAI的ChatGPT、Google的Gemini）。 * 开源模型：通过推理服务商（如Together.ai）或自行下载权重并在本地运行（如DeepSeek、Llama），较小的模型可在个人电脑上运行（如LM Studio）。
7分钟 · 1 年前
4
0

AI Talks AI，一档通过使用 AI 技术来说 AI 的播客，在这里你将会听到当下热门的产品、技术、投资、前沿研究等 AI 行业的内容