本期嘉宾忙秋阳在过去的一年经历了三个大的转变:从相信人类智慧无法战胜的算法竞赛世界级选手,到坦然接受 AI 在算法上超越了他;从利用算法研究计算的自动化,到利用 AI 研究算法研究的自动化;从小而美的小组科研,到大成本、大规模的大团队作战。
他行为的变化背后是认知的转变:过去,人类自己提出问题,也自己解决问题,自己设计算法,处理数据,设计实验。而现在,AI 面对人类提出的问题,正在自动化解决问题这件事本身。
秋阳带领团队发表的 FrontierCS,就是一个测试 AI 面对开放性问题解决能力的数据集,Frontier 的意思是边界,他想要探索 AI 代替人类科研的边界在哪里,随着 AI 和人类分工边界的移动,人类在科研探索中还要扮演什么角色?
本期 AI 实话实说,我们和秋阳聊了算法竞赛、Frontier CS、开放式科研、合成数据、AI for Science,以及一个更大的问题:如果 AI 真的可以做科研,那么博士生、PI、论文、实验室这些概念还是否存在?整个学术评价体系会变成什么样?
欢迎关注节目同名小红书“AI 实话实说”加入群组参与互动。
嘉宾介绍:
忙秋阳是 UC Berkeley PhD 和 Sky Computing Lab 的成员。目前主要研究 long-horizon agent、auto research、AI benchmark 和开放式科研任务。此前研究方向包括软件工程、数据库系统、复杂系统漏洞检测和查询优化。他曾参加信息学竞赛和 ICPC,并进入 ICPC 世界总决赛。近期代表工作包括 Frontier CS 和 FrontierSmith,关注 AI 如何解决没有标准答案、但可以被验证和优化的开放式计算机科学问题。
相关术语:
FOMO:Fear Of Missing Out 错失性恐惧心理
Long-horizon Agent:长程 Agent,指需要跨越多个步骤、多个 context window,甚至长时间运行才能完成任务的 AI 系统。
Auto Research:自动化科研,让 AI 不只是回答已有问题,而是参与提出方案、优化实验、探索开放式问题。
FrontierCS:一个面向计算机科学开放式问题的 benchmark,关注 AI 是否能在没有标准答案的问题上超过人类 reference。
FrontierSmith:围绕 Frontier CS 进一步生成开放式任务和训练数据的方法,试图让 AI 合成可用于训练和评估的高质量问题。
Open-ended Problem:开放式问题,没有唯一标准答案,但可以通过某种 verifier 或评分函数判断结果好坏。
Reward Hacking:奖励作弊。AI 不是解决真实问题,而是钻评价系统或测试环境的漏洞,拿到高分。
Test-time Scaling:测试时扩展。指给 AI 更多时间、更多 token、更多尝试次数,看它能否通过长期搜索和迭代获得更好结果。
Synthetic Data:合成数据。由 AI 或程序生成的数据,可用于预训练、后训练、评估或构造任务。
快速跳转:
嘉宾竞赛经历
算法竞赛选手的尊严受到了 AI 的巨大冲击
参加算法竞赛的高中生已经有潜力发表 EMNLP 和 SIGMOD best paper
为什么研究方向从数据库/软件工程转向 AI?
AI 自动化科研之后,人的位置在哪?
人和 AI 如何分工?
FrontierCS 看的是什么能力?
FrontierCS 题目举例,AI 超过人类了吗?
不同时候人们对 benchmark 的期待
AI + X 在解决不存在的问题,优化不存在的成本?
工业界做 benchmark 的情况下,学术界做的还有意义吗?
你说 Terminal Bench 是学术界的优秀 benchmark,可怎么它的作者都跑去 anthropic 了?
做 benchmark 是被人鄙视的,不是做真科学真研究,我们做方法的人才是坠牛的?
合成数据竟然比人类标注质量还要高?
所有数据都是 AI 生成的,AI 还能继续进步吗?
学术界做合成数据有意义吗?工业界不会做得更好吗?
FrontierCS 里的题目有现实意义吗?
如何避免 reward hacking?存在一般的办法吗?
FrontierCS 花了多少钱?谁来出?
大团队是做 AI 科研的必要条件吗?
大团队提供的是更多的资源,是什么资源?
大团队科研如何判断贡献大小?
AI 来了,教授还要招博士生吗?
SkyLab 为什么成功?
社区贡献,而非论文发表,正在成为 AI 博士毕业的新标准?
