007. 伯克利 忙秋阳:AI 做科研,人类做什么?

007. 伯克利 忙秋阳:AI 做科研,人类做什么?

112分钟 ·
播放数44
·
评论数0

本期嘉宾忙秋阳在过去的一年经历了三个大的转变:从相信人类智慧无法战胜的算法竞赛世界级选手,到坦然接受 AI 在算法上超越了他;从利用算法研究计算的自动化,到利用 AI 研究算法研究的自动化;从小而美的小组科研,到大成本、大规模的大团队作战。

他行为的变化背后是认知的转变:过去,人类自己提出问题,也自己解决问题,自己设计算法,处理数据,设计实验。而现在,AI 面对人类提出的问题,正在自动化解决问题这件事本身。

秋阳带领团队发表的 FrontierCS,就是一个测试 AI 面对开放性问题解决能力的数据集,Frontier 的意思是边界,他想要探索 AI 代替人类科研的边界在哪里,随着 AI 和人类分工边界的移动,人类在科研探索中还要扮演什么角色?

本期 AI 实话实说,我们和秋阳聊了算法竞赛、Frontier CS、开放式科研、合成数据、AI for Science,以及一个更大的问题:如果 AI 真的可以做科研,那么博士生、PI、论文、实验室这些概念还是否存在?整个学术评价体系会变成什么样?

欢迎关注节目同名小红书“AI 实话实说”加入群组参与互动。

嘉宾介绍:
忙秋阳是 UC Berkeley PhD 和 Sky Computing Lab 的成员。目前主要研究 long-horizon agent、auto research、AI benchmark 和开放式科研任务。此前研究方向包括软件工程、数据库系统、复杂系统漏洞检测和查询优化。他曾参加信息学竞赛和 ICPC,并进入 ICPC 世界总决赛。近期代表工作包括 Frontier CS 和 FrontierSmith,关注 AI 如何解决没有标准答案、但可以被验证和优化的开放式计算机科学问题。

相关术语:
FOMO:Fear Of Missing Out 错失性恐惧心理

Long-horizon Agent:长程 Agent,指需要跨越多个步骤、多个 context window,甚至长时间运行才能完成任务的 AI 系统。

Auto Research:自动化科研,让 AI 不只是回答已有问题,而是参与提出方案、优化实验、探索开放式问题。

FrontierCS:一个面向计算机科学开放式问题的 benchmark,关注 AI 是否能在没有标准答案的问题上超过人类 reference。

FrontierSmith:围绕 Frontier CS 进一步生成开放式任务和训练数据的方法,试图让 AI 合成可用于训练和评估的高质量问题。

Open-ended Problem:开放式问题,没有唯一标准答案,但可以通过某种 verifier 或评分函数判断结果好坏。

Reward Hacking:奖励作弊。AI 不是解决真实问题,而是钻评价系统或测试环境的漏洞,拿到高分。

Test-time Scaling:测试时扩展。指给 AI 更多时间、更多 token、更多尝试次数,看它能否通过长期搜索和迭代获得更好结果。

Synthetic Data:合成数据。由 AI 或程序生成的数据,可用于预训练、后训练、评估或构造任务。

快速跳转:

00:05:16 嘉宾竞赛经历

00:06:18 算法竞赛选手的尊严受到了 AI 的巨大冲击

00:10:31 参加算法竞赛的高中生已经有潜力发表 EMNLP 和 SIGMOD best paper

00:12:01 为什么研究方向从数据库/软件工程转向 AI?

00:15:20 AI 自动化科研之后,人的位置在哪?

00:19:14 人和 AI 如何分工?

00:24:15 FrontierCS 看的是什么能力?

00:28:16 FrontierCS 题目举例,AI 超过人类了吗?

00:36:22 不同时候人们对 benchmark 的期待

00:42:16 AI + X 在解决不存在的问题,优化不存在的成本?

00:49:20 工业界做 benchmark 的情况下,学术界做的还有意义吗?

00:55:47 你说 Terminal Bench 是学术界的优秀 benchmark,可怎么它的作者都跑去 anthropic 了?

00:57:19 做 benchmark 是被人鄙视的,不是做真科学真研究,我们做方法的人才是坠牛的?

01:01:48 合成数据竟然比人类标注质量还要高?

01:08:09 所有数据都是 AI 生成的,AI 还能继续进步吗?

01:12:00 学术界做合成数据有意义吗?工业界不会做得更好吗?

01:18:07 FrontierCS 里的题目有现实意义吗?

01:26:18 如何避免 reward hacking?存在一般的办法吗?

01:29:25 FrontierCS 花了多少钱?谁来出?

01:32:10 大团队是做 AI 科研的必要条件吗?

01:34:50 大团队提供的是更多的资源,是什么资源?

01:35:46 大团队科研如何判断贡献大小?

01:42:00 AI 来了,教授还要招博士生吗?

01:43:07 SkyLab 为什么成功?

01:46:43 社区贡献,而非论文发表,正在成为 AI 博士毕业的新标准?