

007. 伯克利 忙秋阳:AI 做科研,人类做什么?本期嘉宾忙秋阳在过去的一年经历了三个大的转变:从相信人类智慧无法战胜的算法竞赛世界级选手,到坦然接受 AI 在算法上超越了他;从利用算法研究计算的自动化,到利用 AI 研究算法研究的自动化;从小而美的小组科研,到大成本、大规模的大团队作战。 他行为的变化背后是认知的转变:过去,人类自己提出问题,也自己解决问题,自己设计算法,处理数据,设计实验。而现在,AI 面对人类提出的问题,正在自动化解决问题这件事本身。 秋阳带领团队发表的 FrontierCS,就是一个测试 AI 面对开放性问题解决能力的数据集,Frontier 的意思是边界,他想要探索 AI 代替人类科研的边界在哪里,随着 AI 和人类分工边界的移动,人类在科研探索中还要扮演什么角色? 本期 AI 实话实说,我们和秋阳聊了算法竞赛、Frontier CS、开放式科研、合成数据、AI for Science,以及一个更大的问题:如果 AI 真的可以做科研,那么博士生、PI、论文、实验室这些概念还是否存在?整个学术评价体系会变成什么样? 欢迎关注节目同名小红书“AI 实话实说”加入群组参与互动。 嘉宾介绍: 忙秋阳是 UC Berkeley PhD 和 Sky Computing Lab 的成员。目前主要研究 long-horizon agent、auto research、AI benchmark 和开放式科研任务。此前研究方向包括软件工程、数据库系统、复杂系统漏洞检测和查询优化。他曾参加信息学竞赛和 ICPC,并进入 ICPC 世界总决赛。近期代表工作包括 Frontier CS 和 FrontierSmith,关注 AI 如何解决没有标准答案、但可以被验证和优化的开放式计算机科学问题。 相关术语: FOMO:Fear Of Missing Out 错失性恐惧心理 Long-horizon Agent:长程 Agent,指需要跨越多个步骤、多个 context window,甚至长时间运行才能完成任务的 AI 系统。 Auto Research:自动化科研,让 AI 不只是回答已有问题,而是参与提出方案、优化实验、探索开放式问题。 FrontierCS:一个面向计算机科学开放式问题的 benchmark,关注 AI 是否能在没有标准答案的问题上超过人类 reference。 FrontierSmith:围绕 Frontier CS 进一步生成开放式任务和训练数据的方法,试图让 AI 合成可用于训练和评估的高质量问题。 Open-ended Problem:开放式问题,没有唯一标准答案,但可以通过某种 verifier 或评分函数判断结果好坏。 Reward Hacking:奖励作弊。AI 不是解决真实问题,而是钻评价系统或测试环境的漏洞,拿到高分。 Test-time Scaling:测试时扩展。指给 AI 更多时间、更多 token、更多尝试次数,看它能否通过长期搜索和迭代获得更好结果。 Synthetic Data:合成数据。由 AI 或程序生成的数据,可用于预训练、后训练、评估或构造任务。 快速跳转: 00:05:16 嘉宾竞赛经历 00:06:18 算法竞赛选手的尊严受到了 AI 的巨大冲击 00:10:31 参加算法竞赛的高中生已经有潜力发表 EMNLP 和 SIGMOD best paper 00:12:01 为什么研究方向从数据库/软件工程转向 AI? 00:15:20 AI 自动化科研之后,人的位置在哪? 00:19:14 人和 AI 如何分工? 00:24:15 FrontierCS 看的是什么能力? 00:28:16 FrontierCS 题目举例,AI 超过人类了吗? 00:36:22 不同时候人们对 benchmark 的期待 00:42:16 AI + X 在解决不存在的问题,优化不存在的成本? 00:49:20 工业界做 benchmark 的情况下,学术界做的还有意义吗? 00:55:47 你说 Terminal Bench 是学术界的优秀 benchmark,可怎么它的作者都跑去 anthropic 了? 00:57:19 做 benchmark 是被人鄙视的,不是做真科学真研究,我们做方法的人才是坠牛的? 01:01:48 合成数据竟然比人类标注质量还要高? 01:08:09 所有数据都是 AI 生成的,AI 还能继续进步吗? 01:12:00 学术界做合成数据有意义吗?工业界不会做得更好吗? 01:18:07 FrontierCS 里的题目有现实意义吗? 01:26:18 如何避免 reward hacking?存在一般的办法吗? 01:29:25 FrontierCS 花了多少钱?谁来出? 01:32:10 大团队是做 AI 科研的必要条件吗? 01:34:50 大团队提供的是更多的资源,是什么资源? 01:35:46 大团队科研如何判断贡献大小? 01:42:00 AI 来了,教授还要招博士生吗? 01:43:07 SkyLab 为什么成功? 01:46:43 社区贡献,而非论文发表,正在成为 AI 博士毕业的新标准?
006. 再访姚巍然:医疗Agent能替真人干活吗?硅谷 AI 的节奏飞旋,一月如一年,时隔四个月,我们再度访谈 ActAVA AI 的联合创始人姚巍然。只为问出一个核心问题:在医疗健康领域,AI Agent 是否可以替真人干活? Claude Code、Codex 这类工具所带来的深度变革已经改写了软件工程这个行业。但是一旦把AI外推到其他的行业中,质疑的声音总是接踵而至——AI是否可以在具体和复杂的沟通与规定场景下替代人类。 本期嘉宾巍然的答案是:不行!至少现在还不能...... 巍然团队最近发布了一个面向医疗工作流的 Agent Benchmark:χ-Bench。它测试的是 AI Agent 能不能自动化端到端、长链条、政策密集的医疗流程,比如 prior authorization、utilization management 和 care management。这个 benchmark 虽然只是针对医疗领域,但是它对于其他行业应用 Agent 无疑有着强烈的借鉴作用。 本期 AI 实话实说,我们和巍然聊了 χ-Bench 为什么重要,医疗 Agent 为什么比 coding agent 更难,benchmark 和融资叙事之间的关系,AI 医疗创业公司的护城河,以及一个更大的问题:未来企业到底会继续依赖 OpenAI、Anthropic 这样的闭源模型,还是会走向行业专属、客户自有、可本地部署的模型。 欢迎关注节目同名小红书 AI 实话实说 加入群组参与互动。 嘉宾介绍: 姚巍然,AVA.AI联合创始人,主要关注 healthcare workflow automation、AI agent platform 和 domain-specific model。他所在团队正在开发企业级 Agent 平台,并探索医疗场景中的仿Agent解决方案、Benchmark 和医疗专用大模型。 相关术语: χ-Bench / Chi Bench:面向医疗工作流的 AI Agent Benchmark,测试 Agent 是否能完成端到端、长时间、多政策约束的 healthcare workflow。 Policy-rich workflow:政策密集型流程。指每一步操作都需要受到保险政策、医疗规定、公司 SOP 或内部文档支持。 Long-horizon task:长链条任务。任务不是一步完成,而是需要多轮读取、判断、调用工具、生成文件、和人对话,并在过程中不断更新状态。 Human in the loop:AI 可以完成大部分草稿、检索、整理工作,但最终仍需要真人 review 和 sign off。 LLM-as-a-judge:用大语言模型作为评估器,判断 Agent 的输出是否符合标准。 快速跳转: 00:01:46 开场:四个月后,团队承诺的 Agent 平台做出来了吗? 00:03:49 什么是 χ-Bench?为什么医疗工作流需要新的 Agent Benchmark? 00:07:39 现在 AI Agent 能不能端到端自动化医疗 workflow?答案是:不能。 00:25:56 现在 Agent 做不到 end-to-end,对创业公司为什么反而是好消息? 00:27:14 发布 benchmark 是否也是为下一轮融资铺路? 00:39:43 Healthcare Agent 公司相对于 foundation model 的护城河是什么? 00:45:53 小公司员工既要做产品又要服务客户,会不会变成血汗工厂? 00:51:46 定制化开源模型能不能超过通用闭源模型? 00:53:30 当前 Agent 的主要 failure mode:rush to submit、policy reasoning、conversation mode 切换 01:04:04 怎么评估 Agent 和病人的对话?如何模拟病人的不信任? 01:11:11 为什么美国医疗系统是一个 administrative nightmare? 01:17:00 如果 Anthropic 或 OpenAI 来刷榜,会不会抢走市场? 01:23:56 Agent 出错了,谁承担责任?为什么产品里必须 human in the loop? 01:20:34 医院是否会走向自有模型?为什么企业不一定愿意把数据交给 OpenAI?
005. 姚巍然:从 Salesforce 出走,做 Cursor for Healthcare医疗是个大问题。在美国,这个问题集中体现在高昂的医疗支出和不公平的保险理赔。医疗产业中三大关键角色:病人、医院和保险公司之间需要大量繁琐、重复、敏感的行政工作。 本期嘉宾姚巍然,是 Activa AI 的 co-founder。博士期间,他研究 causal AI;在 Salesforce AI Research,他很早参与了 AI Agent 和deep research agent 等方向;现在,他把这些经验带进了医疗行业,试图做一件很难但很现实的事:把医疗系统里的行政工作,用 AI Agent 自动化。 这期节目里,我们从他的个人经历聊到 Salesforce 为什么没有成为 Agent 时代的先锋,从 Cursor 为什么好用聊到“Cursor for Healthcare”到底是什么意思,从美国医疗系统里的 payer/provider 结构聊到保险拒赔、AI 公正性、责任归属和病人权益。 更大的问题是:如果 AI Agent 真的能进入医疗系统,它到底是在帮医生、帮保险公司,还是帮病人?这究竟只是生产力工具,还是一种新的范式? 欢迎关注节目同名小红书 AI 实话实说 加入群组参与互动。 嘉宾介绍: 姚巍然,Activa AI 联合创始人,主要关注 healthcare workflow automation、AI agent platform 和 domain-specific model。他所在团队正在开发企业级 Agent 平台,并探索医疗场景中的仿Agent解决方案、Benchmark 和医疗专用大模型。 相关术语: Forward Deployed Engineer / FDE:派到客户现场或深度参与客户项目的工程师,负责理解客户需求、集成系统、部署产品、解决实际问题。 HIPAA Compliance:美国医疗数据合规要求,涉及病人健康信息、日志、权限、基础设施、审计、员工培训等一系列规范。 PHI:Patient Health Information,病人健康信息,包括姓名、症状、社保号、病历等敏感信息。 Open-weight Model Post-training:在开源权重模型基础上继续训练或微调,让模型更适合特定任务或行业。 快速跳转 00:00:54 开场与嘉宾介绍:从 Salesforce AI Research 到医疗 AI Agent 创业 00:03:33 从 causal AI 到 AI Agent:博士、Salesforce、创业三阶段的研究变化 00:09:53 Agent 架构的演化:从早期混乱设计,到 workflow 和 agent loop 00:13:00 2025 年的新风向:RL、diffusion language model 和 deep research agent 00:18:11 Salesforce 为什么很早做 Agent,却没有成为行业先锋? 00:22:05 为什么离开 Salesforce 创业?为什么最终选择 healthcare enterprise? 00:26:17 “Cursor for Healthcare” 到底是什么意思? 00:29:10 美国医疗系统入门:payer、provider、patient,以及为什么行政流程最适合自动化 00:35:52 如何看待美国医保理赔难? 00:42:21 Actava AI:面向医疗企业 long-running workflow 的 Agent 平台 00:58:13 Healthcare 领域的特殊挑战:HIPAA 合规、客户教育、数据 01:14:16 Actava 在模型训练上的努力 01:23:00 Actava AI 研究:从 benchmark 到模型到 agent 01:28:13 Healthcare Agent 会代替人类吗? 01:30:28 Healthcare AI 会让医保理赔变得公平吗? 01:38:16 展望三年后 01:43:49 学术界和工业界的抉择 01:46:25 对新 AI 学生的建议,在 AI 比你聪明的时候你该做什么? 01:52:02 展望 AGI 的世界
003. MIT Alex Gu: AI 做数学能代替数学家吗?今年 1 月 13 号,在 arxiv 出现了一篇论文(2601.07222),它证明了代数几何里的一个新定理,特别的是,这篇文章中的一个重要证明是由谷歌的 Gemini 模型生成的。文章作者之一,美国数学学会主席 Ravi Vakil 教授评价道,Gemini 的证明严格、正确,优雅,并不是已有文献的重组。教授表示,如果这个证明是他本人做出来的,他也会因此觉得自豪。 类似的新闻我们最近听到得越来越多,就比如说,菲尔兹奖得主陶哲轩是 AI 数学的忠实用户和倡导者,自己也参与了用 AI 加上形式化验证来解决数学问题的工作。 本期嘉宾 Alex Gu 就是陶哲轩在 AI 数学上的合作者之一,他所在的 8 人创业公司 Math, Inc 邀请了陶与他们合作,共同开发他们的 AI 形式化数学 Agent 高斯,并在 1月 16 号刚刚完成了对超椭圆曲线的黎曼猜想及其证明的形式化。本期 AI 实话实说,我们想和他深入聊聊:AI 做数学,到底能代替数学家吗? Alex 是 MIT PhD on leave,之前的主要研究兴趣是 AI for code 和 AI for math。大家耳熟能详的 LiveCodeBench 评测就是他的作品。 相关术语: formal math - 形式化数学,在我们的语境下指用 lean 等计算机语言书写,利用编译器检验正确性的数学 informal math - 非形式化数学,在我们的语境下指人类目前更常用的由人类审稿人来检验正确性的数学 快速跳转: 0:00:55 引入 0:02:27 嘉宾经历介绍 0:11:24 什么是形式化数学? 0:15:40 为什么大家用 lean 来做形式化数学? 0:17:00 形式化证明的例子 0:20:43 在 AI 出现以前,大家做形式化数学的动机是? 0:22:59 AI 出现以前形式化数学为什么没有大规模使用? 0:26:15 形式化费马大定理,需要数学家还是 AI 人? 0:28:39 为什么大家应该用 AI 做形式化数学,而不是 informal math? 0:33:38 形式化和非形式化的数学对数学家有什么用? 0:34:56 什么叫自动形式化?为什么它对于 AI 数学重要? 0:40:00 到底哪些人在做 AI for formal math? 0:42:37 不同的动机做 AI 数学,会产生什么样的不同行为? 0:48:02 formal math 天生不适合人类数学家阅读吗? 0:51:10 创业公司为什么要做 AI for math? 0:53:58 AI math 创业公司有哪些?讲的是什么故事? 1:01:59 AI 数学将来可以应用到软件的形式化验证? 1:07:09 AI 数学还有哪些可能的应用场景? 1:13:47 数学家群体怎么看待 AI 数学?为什么有些数学家不喜欢 AI 数学? 1:18:16 “手工”数学家和拒绝工业化的手工铁锅匠人有区别吗? 1:20:15 数学家未来会拥抱 AI 吗? 1:22:12 Math Inc 如何团队合作? 1:24:57 Math Inc 如何和数学家合作? 1:26:40 陶哲轩如何和 Math Inc 合作 1:29:34 为什么陶哲轩喜欢 AI 数学? 1:33:18 你们会如何改变数学博士的就业市场? 1:36:18 对于现在要开始学数学的人有什么建议? 1:38:21 AI 不擅长提出新猜想和新问题吗? 1:46:14 为什么加入创业公司,而不是大厂? 嘉宾主页: minimario.github.io 相关论文: Formal Mathematical Reasoning: A New Frontier in AI 感谢 Peiyang Song 对本期节目的贡献。
002. 和龚珊三、姚锦炜聊聊扩散语言模型大家熟悉的语言模型,比如 chatgpt ,采取的是自回归(autoregressive,AR)的生成方式,一句话从第一个字开始,一个字一个字地生成,一直到最后一个字。 Diffusion 语言模型,扩散语言模型,则没有严格的顺序,也没有一次生成字数的限制,每一次可以在句子的各个位置生成任意数量的文字。所以它被叫做非自回归(non autoregressive)。 扩散语言模型正在受到学术界和工业界的极大关注。 本期 AI 实话实说,我们邀请了龚珊三,姚锦炜两位参与过 diffusion LM 研究和开发工作的同学,共同探讨扩散语言模型的过去、现在和将来。 珊三是港大博士生,从 22 年起深耕 diffusion LM,发表了早期有代表性的 diffusion LM Diffuseq,提出了将自回归语言模型转化为 diffusion LM 的方法,还在 Apple 训练了 7B 用于代码生成的 DiffuCoder。 锦炜是UIUC 硕士生,研究大模型的并行生成,同时是 SGLang diffusion LLM team的核心成员。他在和蚂蚁集团的团队合作,将蚂蚁近期发布的第二代 LLaDA,参数量达到 1000 亿的目前最大的 diffusion LM 整合进了 SGLang 框架,让开源社区得以高效部署这一模型。 欢迎关注节目同名小红书 “AI实话实说” 加入群组,关注同名微信公众号获取文字内容。 嘉宾小红书:Sansa (496274944) 快速跳转精彩内容: 00:01:00 扩散语言模型简介 00:02:24 龚珊三自我介绍 00:04:18 姚锦炜自我介绍 00:07:49 哪些要素是 diffusion LM 必要的? 00:10:56 diffusion LM 三要素 00:12:39 包含自回归要素的 diffusion LM 是修正主义吗? 00:15:21 以前名字千奇百怪,现在为啥都叫 diffusion LM 了? 00:20:11 现在哪些学校或者公司做 diffusion LM?为什么? 00:25:10 OpenAI 在做 diffusion LM 吗? 00:26:41 为什么 OpenAI 很多人是 Diffusion 黑子? 00:31:18 大家不愿意做 diffusion,是因为还没看到它的前景吗? 00:33:42 蚂蚁集团为什么要做 diffusion LM? 00:36:40 为什么大家从连续 diffusion LM 转向离散的? 00:39:23 把 LM 做成非自回归,把图像生成自回归,这是没活硬整吗? 00:44:21 从哲学上为什么说非自回归比自回归更有未来? 00:46:44 锦炜为什么不在乎 diffusion LM 赢不赢? 00:52:40 diffusion 对于语言数据天然有局限性吗? 00:59:40 自回归为语言数据规定了 生成顺序,是不是违背了 the bitter lesson? 01:09:43 陈立杰老师分析 diffusion 理论上限,有何意义? 01:16:43 自回归语言模型的巨大成就是否限制了 diffusion LM 研究的空间? 01:24:29 如何公平比较自回归 LM 和 diffusion LM? 01:29:23 如何看待除了 diffusion 以外的并行生成方式? 01:35:24 diffusion LM 目前适合用在哪里? 01:45:23 diffusion LM 最大的问题是什么? 01:48:46 ChatGPT 对你们的科研产生了什么影响? 01:54:30 diffusion LM 如果未来没成功,你怎么办? 01:59:17 AGI 会把我们都干掉吗? 术语对照表: NAT - non-autoregressive translation - 非自回归翻译 AR - autoregressive - 自回归 Diffusion LM - diffusion language model - 扩散语言模型 两位嘉宾的个人主页: summmeer.github.io kivi-yao.github.io 讨论到的论文和资料: 珊三对于 diffusion LM 的总结 锦炜参与的 SGLang Diffusion LM 引擎 非自回归翻译 从生成顺序看 diffusion 模型的局限性 diffusion 的学习效率比自回归更高 diffusion LM 的理论上限分析 parallel generation calls are not isolated-- they have sharing pattern to accelerate sequential prefill can be parallelized multiverse--parallel generations for better test time scaling dLLMm for drafting: tidarlm.github.io and z-lab.ai/projects/dflash/ dLLM caching from NVIDIA: github.com/NVlabs/Fast-dLLM
001. 和 SGLang RL Lead 赵晨阳聊聊 AI Infra 和开源社区这是 AI 实话实说的第一期节目,我们请到了赵晨阳。 晨阳本科毕业于清华大学,目前是 UCLA PhD on leave。他从 2024 年 7 月份开始参与主流 LLM 推理引擎 SGLang 的开发,是 SGLang 的核心贡献者和 RL lead,现在也和 SGLang 的许多开发者一起在 RadixArk AI 创业,继续做开源 AI Infra,开发开源 RL 框架 Miles。 嘉宾主页: zhaochenyang20.github.io/Chayenne 嘉宾小红书:我,吉他,猫,LLM。 欢迎关注节目同名小红书 AI 实话实说 加入群组参与互动,关注同名微信公众号获取文字内容。 跳转精彩内容 00:01:34 嘉宾自我介绍 00:02:20 为什么从做算法变成做 Infra? 00:10:00 做 infra 是为了最大化 impact? 00:12:30 存在 bug 的 infra 能做出可靠的算法研究吗? 00:14:45 某 Frontier Lab 的 MOE 模型训不出来背后的原因竟然是? 00:18:44 为什么要做 RL 的训推一致? 00:21:35 假设 infra 是完美的,算法研究会发生什么? 00:27:23 RL 的下一步是 Serverless RL?RadixArk 要做 OpenTinker? 00:33:08 为什么 OpenRLHF 的设计理念很先进? 00:35:44 SGLang 的产品经理要做什么? 00:39:42 如何平衡来自不同贡献者的开源贡献? 00:43:56 vibe coding 对开源社区的影响?你如何用 vibe coding? 00:49:11 如何避免垃圾代码毁掉开源项目? 00:52:31 开源项目和企业的关系? 00:53:47 SGLang 贡献者为什么要加入 RadixArk AI? 00:56:26 为什么你觉得 AI 学术圈完蛋了? 00:59:51 RadixArk 做什么?怎么赚钱? 01:02:02 RadxArk 如何平衡开源和商业? 01:08:13 如何加入 RadixArk? 01:11:40 Infra Engineer 会被 AI 代替吗? 01:14:39 RadixArk 的 RL 框架 Miles 好在哪? 01:20:03 谈谈博士生 on leave 01:28:28 谈谈 AGI 01:30:18 为什么你用 gemini 以及看好谷歌? 01:37:31 AI 会让我们失业吗?怎么办? 本期提到的论文: Zhao et al., SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning, COLM 2024 Viswanathan et al., Prompt2Model: Generating Deployable Models from Natural Language Instructions, EMNLP Demo 2023. 本期提到的开源项目: sgl-project/sglang THUDM/slime radixark/miles OpenRLHF/OpenRLHF NovaSky-AI/SkyRL InternLM/XTuner ByteDance-Seed/VeOmni 本期提到的人物: slime 的代码神:github.com/zhuzilin SGLang 的代码神:lmzheng.net kivi-yao.github.io