【第588期】Meta-Harness:自动化端到端模型装具优化系统Seventy3

【第588期】Meta-Harness:自动化端到端模型装具优化系统

24分钟 ·
播放数3
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Meta-Harness: End-to-End Optimization of Model Harnesses

Summary

大语言模型(LLM)系统的性能不仅取决于模型权重,还取决于它们的 Harness(配套框架代码):即负责决定如何存储、检索信息以及如何向模型呈现信息的代码。

然而,目前的 Harness 设计在很大程度上仍依赖人工。现有的文本优化器由于对反馈的压缩过于激进,难以适配这种复杂的代码搜索设定。

为此,我们引入了 Meta-Harness,这是一个为 LLM 应用自动搜索最优 Harness 代码的“外环”系统。

核心机制

  • 智能体化提案器(Agentic Proposer):该系统使用一个智能体通过文件系统访问此前所有候选方案的源代码、评分以及执行轨迹。

  • 经验驱动:通过对过往尝试的深度复盘,系统能够自主迭代出更高效的配套代码。

实验结果

  1. 文本分类:在在线文本分类任务中,Meta-Harness 相比最先进的上下文管理系统提升了 7.7 分,且仅使用了 1/4 的上下文 Token

  2. 数学推理(RAG):在 200 道 IMO(国际数学奥林匹克)级别的题目中,由 Meta-Harness 发现的一个方案在 5 个留出模型上平均准确率提升了 4.7 分

  3. 智能体编程:在 TerminalBench-2 测试中,自动发现的 Harness 超越了所有人工精心设计的基准方案。


总结: 这些结果表明,通过让系统更丰富地接触和分析过往经验,可以实现 Harness 工程的自动化。这意味着未来优化 LLM 系统可能不再需要手动调整 Prompt 和检索逻辑,而是交给系统去自动“进化”出最适配的代码支架。

原文链接:arxiv.org