007. 伯克利 忙秋阳：AI 做科研，人类做什么？

本期嘉宾忙秋阳在过去的一年经历了三个大的转变：从相信人类智慧无法战胜的算法竞赛世界级选手，到坦然接受 AI 在算法上超越了他；从利用算法研究计算的自动化，到利用 AI 研究算法研究的自动化；从小而美的小组科研，到大成本、大规模的大团队作战。

他行为的变化背后是认知的转变：过去，人类自己提出问题，也自己解决问题，自己设计算法，处理数据，设计实验。而现在，AI 面对人类提出的问题，正在自动化解决问题这件事本身。

秋阳带领团队发表的 FrontierCS，就是一个测试 AI 面对开放性问题解决能力的数据集，Frontier 的意思是边界，他想要探索 AI 代替人类科研的边界在哪里，随着 AI 和人类分工边界的移动，人类在科研探索中还要扮演什么角色？

本期 AI 实话实说，我们和秋阳聊了算法竞赛、Frontier CS、开放式科研、合成数据、AI for Science，以及一个更大的问题：如果 AI 真的可以做科研，那么博士生、PI、论文、实验室这些概念还是否存在？整个学术评价体系会变成什么样？

欢迎关注节目同名小红书“AI 实话实说”加入群组参与互动。

嘉宾介绍：
忙秋阳是 UC Berkeley PhD 和 Sky Computing Lab 的成员。目前主要研究 long-horizon agent、auto research、AI benchmark 和开放式科研任务。此前研究方向包括软件工程、数据库系统、复杂系统漏洞检测和查询优化。他曾参加信息学竞赛和 ICPC，并进入 ICPC 世界总决赛。近期代表工作包括 Frontier CS 和 FrontierSmith，关注 AI 如何解决没有标准答案、但可以被验证和优化的开放式计算机科学问题。

相关术语：
FOMO：Fear Of Missing Out 错失性恐惧心理

Long-horizon Agent：长程 Agent，指需要跨越多个步骤、多个 context window，甚至长时间运行才能完成任务的 AI 系统。

Auto Research：自动化科研，让 AI 不只是回答已有问题，而是参与提出方案、优化实验、探索开放式问题。

FrontierCS：一个面向计算机科学开放式问题的 benchmark，关注 AI 是否能在没有标准答案的问题上超过人类 reference。

FrontierSmith：围绕 Frontier CS 进一步生成开放式任务和训练数据的方法，试图让 AI 合成可用于训练和评估的高质量问题。

Open-ended Problem：开放式问题，没有唯一标准答案，但可以通过某种 verifier 或评分函数判断结果好坏。

Reward Hacking：奖励作弊。AI 不是解决真实问题，而是钻评价系统或测试环境的漏洞，拿到高分。

Test-time Scaling：测试时扩展。指给 AI 更多时间、更多 token、更多尝试次数，看它能否通过长期搜索和迭代获得更好结果。

Synthetic Data：合成数据。由 AI 或程序生成的数据，可用于预训练、后训练、评估或构造任务。

快速跳转：

00:05:16 嘉宾竞赛经历

00:06:18 算法竞赛选手的尊严受到了 AI 的巨大冲击

00:10:31 参加算法竞赛的高中生已经有潜力发表 EMNLP 和 SIGMOD best paper

00:12:01 为什么研究方向从数据库/软件工程转向 AI？

00:15:20 AI 自动化科研之后，人的位置在哪？

00:19:14 人和 AI 如何分工？

00:24:15 FrontierCS 看的是什么能力？

00:28:16 FrontierCS 题目举例，AI 超过人类了吗？

00:36:22 不同时候人们对 benchmark 的期待

00:42:16 AI + X 在解决不存在的问题，优化不存在的成本?

00:49:20 工业界做 benchmark 的情况下，学术界做的还有意义吗？

00:55:47 你说 Terminal Bench 是学术界的优秀 benchmark，可怎么它的作者都跑去 anthropic 了？

00:57:19 做 benchmark 是被人鄙视的，不是做真科学真研究，我们做方法的人才是坠牛的？

01:01:48 合成数据竟然比人类标注质量还要高？

01:08:09 所有数据都是 AI 生成的，AI 还能继续进步吗？

01:12:00 学术界做合成数据有意义吗？工业界不会做得更好吗？

01:18:07 FrontierCS 里的题目有现实意义吗？

01:26:18 如何避免 reward hacking？存在一般的办法吗？

01:29:25 FrontierCS 花了多少钱？谁来出？

01:32:10 大团队是做 AI 科研的必要条件吗？

01:34:50 大团队提供的是更多的资源，是什么资源？

01:35:46 大团队科研如何判断贡献大小？

01:42:00 AI 来了，教授还要招博士生吗？

01:43:07 SkyLab 为什么成功？

01:46:43 社区贡献，而非论文发表，正在成为 AI 博士毕业的新标准？