Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Is Grep All You Need? How Agent Harnesses Reshape Agentic Search
Summary
大语言模型(LLM)智能体的最新进展已经实现了复杂的智能体工作流(agentic workflows),模型能够自主检索信息、调用工具并在大规模语料库上进行推理,从而代表用户完成任务。
尽管检索增强生成(RAG)在智能体搜索系统中的应用日益广泛,但现有文献仍缺乏对检索策略选择如何与智能体架构及工具调用范式相互作用的系统性比较。一些重要的实践维度在智能体循环(agent loops)中仍未得到充分探索,例如:如何向模型呈现工具输出,以及当检索必须应对更多无关的上下文文本时,性能会发生怎样的变化。
本文报告了一项包含两个实验的实证研究:
实验 1:在来自 LongMemEval 的 116 个问题样本上对比了 grep 检索和向量检索。该实验使用了一个自定义智能体测试框架(Chronos)和厂商原生的 CLI 测试框架(Claude Code、Codex 和 Gemini CLI),并同时针对“内联(inline)工具结果”和“由模型单独读取的基于文件的工具结果”进行了评估。
实验 2:对比了仅使用 grep 和仅使用向量的检索,同时在其中逐步混入额外的无关对话历史,以此让每个查询在包含核心相关段落的同时,也被嵌入到更多具有干扰性的材料中。
结论表明: 在实验 1 的对比中,无论是使用 Chronos 还是厂商的 CLI,grep 通常都比向量检索表现出更高的准确率;与此同时,即使底层对话数据完全相同,整体得分仍然强烈依赖于具体使用的测试框架和工具调用风格。
原文链接:arxiv.org

