【第606期】AiScientist:基于文件总线协议的自主长程机器学习科研系统Seventy3

【第606期】AiScientist:基于文件总线协议的自主长程机器学习科研系统

28分钟 ·
播放数0
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Toward Autonomous Long-Horizon Engineering for ML Research

Summary

自主 AI 研究近年来取得了快速进展,但面向机器学习(ML)研究工程的长时程(long-horizon)任务仍然极具挑战:智能体必须在数小时甚至数天内,持续在任务理解、环境搭建、实现、实验以及调试等多个阶段之间保持连贯推进。

我们提出了 AiScientist,一个用于自主长时程 ML 研究工程的系统,其建立在一个简单原则之上:强大的长时程性能既需要结构化编排(structured orchestration),也需要持久化状态连续性(durable state continuity)。

为此,AiScientist 将分层编排(hierarchical orchestration)与一种具备权限范围控制的 “File-as-Bus” 工作空间机制结合起来:

  • 顶层 Orchestrator(协调器)通过简洁摘要与工作空间映射(workspace map)维持阶段级控制;

  • 专门化智能体则会反复基于持久化工件(durable artifacts)重新建立上下文,例如分析结果、计划、代码以及实验数据,而不是主要依赖对话式交接(conversational handoffs)。

这种设计形成了“对厚状态(thick state)的轻控制(thin control)”。

在两个互补基准测试中,AiScientist 均取得了显著提升:

  • 在 PaperBench 上,相比最匹配的基线方法,平均提升 10.54 分;

  • 在 MLE-Bench Lite 上,实现了 81.82% 的 Any Medal 比例。

消融实验进一步表明,File-as-Bus 协议是性能提升的关键驱动因素:移除该机制后,

  • PaperBench 分数下降 6.41 分;

  • MLE-Bench Lite 分数下降 31.82 分。

这些结果表明:长时程 ML 研究工程本质上是一个“围绕持久化项目状态协调专门化工作”的系统工程问题,而不仅仅是一个局部推理(local reasoning)问题。

原文链接:arxiv.org