【第588期】Meta-Harness：自动化端到端模型装具优化系统

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Meta-Harness: End-to-End Optimization of Model Harnesses

Summary

大语言模型（LLM）系统的性能不仅取决于模型权重，还取决于它们的 Harness（配套框架代码）：即负责决定如何存储、检索信息以及如何向模型呈现信息的代码。

然而，目前的 Harness 设计在很大程度上仍依赖人工。现有的文本优化器由于对反馈的压缩过于激进，难以适配这种复杂的代码搜索设定。

为此，我们引入了 Meta-Harness，这是一个为 LLM 应用自动搜索最优 Harness 代码的“外环”系统。

文本分类：在在线文本分类任务中，Meta-Harness 相比最先进的上下文管理系统提升了 7.7 分，且仅使用了 1/4 的上下文 Token。
数学推理（RAG）：在 200 道 IMO（国际数学奥林匹克）级别的题目中，由 Meta-Harness 发现的一个方案在 5 个留出模型上平均准确率提升了 4.7 分。
智能体编程：在 TerminalBench-2 测试中，自动发现的 Harness 超越了所有人工精心设计的基准方案。

总结： 这些结果表明，通过让系统更丰富地接触和分析过往经验，可以实现 Harness 工程的自动化。这意味着未来优化 LLM 系统可能不再需要手动调整 Prompt 和检索逻辑，而是交给系统去自动“进化”出最适配的代码支架。

原文链接：arxiv.org