AutoResearch:Andrej Karpathy的自动科研代理架构Gerry Is Cool

AutoResearch:Andrej Karpathy的自动科研代理架构

17分钟 ·
播放数3
·
评论数0

如果 AI 能像人类研究员一样,通宵达旦地提出假设、跑实验、分析结果,然后根据效果自动保留好的修改、回滚坏的尝试——而且整个过程无需任何人盯着,你会用它来做什么Andrej Karpathy 开源的 AutoResearch,正是这样一套让 AI 实现“递归自我改进”的系统。

本期内容将带你深入 AutoResearch 的核心机制。你会看到,它如何通过三文件架构(不可变的 prepare.py、代理可随意修改的 train.py、人类指令 program.md)建立起一个严密的“棘轮循环”:每5分钟,AI 代理提出一个假设,修改代码,运行训练,然后根据评分自动决定保留或回滚。实验结果令人震撼:一夜 83 次实验,模型性能指标从 1.000 降至 0.975,发现了一些人类研究员可能需要数天才能找到的改进。更重要的是,这种模式已扩展到市场营销、量化交易、网页性能优化等领域。当然,它也有“创造力天花板”——只能做增量改进,无法接受短期退步换取长期飞跃。但无论如何,AutoResearch 展示了一种未来:人类将不再执行实验,而是成为定义指标和约束的“研究顾问”

参考:

以下为主要内容的图文介绍:

⚙️ 什么是 AutoResearch?——AI 版的“自我实验狂人”

  • 发布背景:2026年3月,Andrej Karpathy 开源的一个 Python 工具

  • 核心目标:在单 GPU 上,让 AI 代理自动执行“提出假设-训练-评估-保留/回滚”的循环,无需人工干预

  • 角色转变人类从“代码编写者”变为“研究顾问”,AI 负责具体实验执行

🧱 三文件架构——严密的“权力分离”

AutoResearch 建立在三个文件之间的严格“契约”之上:

  1. prepare.py(不可变):处理数据准备和评估逻辑,定义衡量标准(如 val_bpb)。它是系统的“公正法官”,AI 和人类都不能修改,确保评估一致性。

  2. train.py(代理沙盒):包含模型架构、优化器、训练循环。AI 代理可以随意重写此文件(修改注意力机制、调整学习率等),只要代码能运行并产生分数。

  3. program.md(人类指令):人类唯一操作的文件。用 Markdown 设定研究方向、基准分数、运行指令及失败处理规则。

🔄 “棘轮循环”工作流——只能前进,不能后退

  • 实验周期:通常每5分钟一个循环。

  • 步骤

    1. 代理阅读 program.md、观察 train.py 和历史结果,提出修改假设。

    2. 修改 train.py 并提交 Git 分支,开始固定时长训练。

    3. 评估新分数:如果 val_bpb 提高,保留该 Git 提交;如果变差或失败,git reset 回滚

  • 公平对比:固定时长预算下,不同规模/架构的修改可公平比较。

  • 单向棘轮:代码库只能向更好的方向演进,无法退步。

🚀 应用成果——从机器学习到量化交易

  • ML 优化:Karpathy 的实验:一夜83次实验,val_bpb 从 1.000 降至 0.975。发现了 QKnorm 缩放因子、正则化调整等结构性改进——人类可能需要数天。

  • 跨领域案例

    • 查询扩展模型(Shopify CEO):8小时内准确率提高 19%。

    • 网页性能优化:将加载时间从 50ms 降至 25ms。

    • 量化交易策略测试、自动化营销 AB 测试。

  • 通用条件:任何具有“自动评分函数”的领域都可套用。

⚠️ 局限性与“创造力天花板”

  • 创造力天花板:棘轮机制要求每一步必须立即改进,无法为了长期更大收益而接受短期退步,容易陷入局部最优。

  • 缺乏新颖性:目前只能在现有架构上做增量迭代,尚未报告能发明全新架构(如全新的注意力机制)。

  • 过拟合风险:在同一验证集上上百次实验可能导致对特定评估数据的过拟合。

  • 硬件依赖:默认需要 NVIDIA GPU(如 H100),小硬件需调整参数或使用社区分支。

💡 行业评价与未来意义

  • 正面:有人认为是“早期奇点”的体现,递归自我优化的开始。

  • 批评:也有人觉得只是“更高级的超参数搜索”。

  • Karpathy 的总结:代理处理了繁琐的执行工作,但判断研究方向、设定衡量标准的判断力,仍是人类核心竞争力的所在。