这些来源详细介绍了一个名为 The AI Scientist 的全自动科学研究系统，该系统由 Sakana AI 及其合作机构开发。该项目利用底层基础模型，能够自主完成从生成假设、编写代码、运行实验到撰写完整科学论文的全流程。其升级版本 v2 引入了智能代理树搜索技术，摆脱了对固定模板的依赖，实现了更具探索性的科学发现。值得注意的是，该系统生成的论文已成功通过了顶级 AI 会议工作坊的人类同行评审。此外，研究团队还开发了自动化评审系统，其评估准确度已达到与人类专家相当的水平。尽管目前仍存在幻觉和逻辑严密性等局限，但这一进展预示着人工智能驱动的自动化科研范式正在开启。

AI Scientist v2（无模板版本）通过自主生成初始代码脚本并采用更开放的探索方式，摆脱了对人类预设代码模板的依赖。它主要通过引入**代理树搜索（Agentic Tree Search）和实验进度管理器（Experiment Progress Manager）**来实现跨机器学习领域的自主科学探索。具体来说，它的自主探索过程包含以下几个核心机制：

1. 泛化的想法生成与文献检索 (Generalized Idea Generation)系统不再基于固定的起始代码，而是使用大语言模型（如 OpenAI 的 o3）生成类似论文摘要的高层级研究提案，阐述研究问题、提出新方法并假设预期结果。该过程与外部学术数据库（如 Semantic Scholar API）紧密结合，自动进行文献查阅，以识别知识空白并过滤掉与现有研究高度相似的想法，确保研究的新颖性。

2. 实验进度管理器 (Experiment Progress Manager)为了模拟真实的科学实验流程，AI Scientist v2 将实验结构化为四个明确的阶段：

初步调查 (Preliminary investigation)： 测试基本的可行性和运行原型。

超参数调优 (Hyperparameter tuning)： 优化参数直到实验（如训练曲线）趋于稳定。

执行主要研究计划 (Research agenda execution)： 利用算力预算全面推进核心实验。

消融实验 (Ablation studies)： 评估不同组件对实验结果的贡献。在每个阶段结束时，一个基于 LLM 的评估器会评估所有的叶子节点，挑选出表现最好的节点作为下一个探索阶段的根节点，从而有效地修剪掉没有前景的研究方向。

3. 并行的代理树搜索 (Parallelized Agentic Tree Search)为了应对开放式研究的复杂性，系统用并行的代理树搜索取代了线性的实验流程：

代码生成与执行： 系统（默认使用 Claude Sonnet 4）为每个节点生成具体的实验计划和 Python 代码，并在解释器中执行。如果执行出错，节点会被标记为“buggy”（有缺陷）并记录错误；如果成功，则进入数据绘图阶段。

视觉语言模型（VLM）反馈： 实验生成的图表会被输入给 VLM（如 GPT-4o）进行批判性审查。VLM 会检查图表是否有不合理的坐标轴、缺失图例或误导性的展示，任何被标记的问题都会引发后续的调试。

最佳优先搜索扩展： 系统在扩展树结构时，会并行执行多个节点。GPT-4o 会基于性能指标、训练动态和图表质量等因素，引导进行“最佳优先搜索”，不断优化成功的节点，同时也会分配一定的概率去自动调试那些报错的节点。

专业化节点分类： 树搜索中包含了专门用于超参数遍历、消融测试、多次随机种子重复测试（以计算均值和标准差提升鲁棒性）以及汇总图表数据的特化节点。

4. 动态的数据集访问 (Generalized Dataset Access)系统打破了只能使用固定数据集的限制，被赋予了动态构建查询的能力，可以直接从 HuggingFace Hub 下载并编写数据加载代码，或者直接读取人类科学家预先存放在本地的自定义数据集。

5. 增强的直接论文撰写 (Enhanced Manuscript Writing)在论文撰写阶段，v2 版本不再依赖外部代码编辑代理（如 Aider）来填补模板，而是利用强大的推理模型（如 OpenAI o1）结合反复的自我反思机制，直接生成整篇 LaTeX 代码。在此期间，VLM 会仔细检查论文中的图片说明与实际图表是否高度一致。

值得注意的是，由于 v2 版本是为开放式科学探索而设计的，研究范围更广且缺乏人类提供的坚实基础模板，因此它产生好论文的成功率通常低于依赖明确模板的 v1 版本。

AI Scientist-v2 系统通过一种**并行代理树搜索（Parallelized Agentic Tree Search）**机制来替代传统的线性实验工作流，从而自主地探索、生成和优化实验代码。该系统的代理树搜索优化过程主要包含以下几个核心机制：

1. 代码的生成、执行与评估循环在树搜索的每个节点中，系统（默认使用 Claude Sonnet 4）首先会生成具体的实验计划和对应的 Python 代码，并立即在 Python 解释器中执行。

错误标记： 如果代码运行报错，错误信息会被记录，该节点会被标记为“有错误（buggy）”，当前执行循环结束。

VLM 视觉审查： 如果代码执行成功，系统会读取存储的实验结果并生成可视化图表。这些图表随后被输入给视觉语言模型（VLM，如 GPT-4o）进行审查。如果 VLM 发现图表存在标签不清、缺失图例或具有误导性等问题，该节点同样会被标记为“有错误”；反之，则标记为“无错误（non-buggy）”。

2. 最佳优先搜索与节点并行扩展系统会在树中选择多个节点进行并行扩展，以加速探索过程：

调试迭代： 系统会以设定的概率（debug_prob）选择“有错误”的节点进行扩展，重点解决代码或图表中的错误。

最佳优先搜索（Best-First Search）： 对于“无错误”的节点，系统利用 GPT-4o 进行最佳优先搜索，根据性能指标、训练动态和图表质量等因素，评估并挑选出最有潜力的候选节点。系统会基于这些优秀的父节点生成子节点，进一步细化和改进实验代码。

3. 采用专用的实验节点类型为了满足复杂的科学实验需求，树搜索过程中引入了几种专用的节点变体来优化代码和实验配置：

超参数节点（Hyperparameter nodes）： 系统性地探索不同的超参数配置，并跟踪已测试的记录以防止重复实验。

消融节点（Ablation nodes）： 用于评估实验中各个关键组件或假设的重要性。

复现节点（Replication nodes）： 使用不同的随机种子重新运行父节点的实验，以便计算统计学指标（如均值和标准差），提高结果的稳健性。

聚合节点（Aggregation nodes）： 不进行新实验，而是生成 Python 脚本来整合并可视化复现节点的合并结果。

4. 阶段性推进与节点修剪整个树搜索并不是漫无目的的，而是由实验进度管理器划分为四个递进阶段：(1) 初步调查、(2) 超参数调优、(3) 执行主要研究议程、(4) 消融研究。在每个阶段结束时，一个基于 LLM 的评估器会评估所有的叶子节点，并挑选出最有希望的节点作为下一阶段探索的根节点（Root node）。这种机制有效地修剪了表现不佳的研究路径，确保计算资源和后续的代码优化都集中在最成功的实验思路上。

目前，AI 生成的科研论文已经取得了历史性的突破，首次有完全由 AI（The AI Scientist-v2）撰写的论文通过了严格的人类盲审同行评审。

根据在顶级机器学习会议 ICLR 2025 的 ICBINB 研讨会（接收率为 70%）上进行的真实测试，AI 生成的论文在同行评审中表现出以下特点和结果：

部分论文得分超越人类平均水平：研究团队提交了 3 篇未经任何人类修改的 AI 生成论文参与盲审，其中 1 篇获得了 6.33 的平均分（三位评审的打分分别为 6、7、6），成功超越了研讨会的平均接收门槛，得分高于 55% 的人类作者论文。

表现不够稳定且尚未达到顶级主会标准：尽管提交的 3 篇论文中有 1 篇达到了接收标准，但另外 2 篇未能通过评审。团队内部评估也认为，这些论文目前尚未达到顶级会议主会（如 ICLR 主会接收率仅约 32%）的发表标准，甚至在门槛较低的研讨会级别也无法做到百分之百稳定被接收。

暴露出的常见缺陷：在同行评审和评估中，现阶段 AI 生成的论文仍存在一些明显的局限性。常见的失败原因包括：提出的科研想法过于天真或不够成熟、缺乏深入且严谨的方法论、实验代码实现错误、产生幻觉（例如生成不准确的参考文献），以及出现由于排版导致的低级错误（如在附录中重复正文图表）。

尽管目前存在局限性，但研究人员开发了一个“自动评审员（Automated Reviewer）”工具（其打分准确度和人类同行评审员相当），并在大规模评估中发现：AI 生成论文的质量符合明确的缩放定律（Scaling Law）。这表明，随着底层基础模型能力的不断提升和计算资源的增加，未来 AI 生成的科研论文质量将会水涨船高，表现出越来越强的科研能力。

目前，AI Scientist 主要局限于完全在计算机上进行的计算实验，这也是其目前聚焦于机器学习领域的原因。但研究团队预计，该系统所展示的自动化科研工作流未来可以被应用到其他科学领域中。

根据资料，AI Scientist 未来的潜在应用领域包括：

具备自动化实验与数据收集条件的实验科学：只要某个领域的实验能够被自动执行（或者由人类代为执行）并能收集到数据，就可以适用这套系统。论文中特别指出了一个极具潜力的直接应用场景——自动化化学实验室（automated chemistry laboratories），该领域目前已经在快速发展。

解决全球性挑战与宏大科学目标：从更长远的愿景来看，研究团队认为，如果这类全自动科研系统能够安全地发展，它们将极大加速开放式科学发现的步伐，从而潜在地应用于治愈各种疾病、为全人类提供丰富的物质资源、保护生态环境，乃至助力太空探索（探索星空）。

总而言之，只要能建立起“提出假设-执行实验-收集数据”的闭环，AI Scientist 的这种自动化科学探索模式就有望从计算机科学扩展到更广泛的物理、化学、生物等自然科学领域。