在企业级应用中,RAG(检索增强生成)常被视为解决大模型幻觉的“银弹”,但在处理复杂的法律尽职调查、金融审计或技术文档排查时,传统的 RAG 往往因为“切片(Chunking)”破坏了文档结构,导致跨文档的逻辑链条断裂。如何让 AI 不仅仅是做“关键词匹配”,而是像资深分析师一样,具备在海量文件中“顺藤摸瓜”的推理能力?
本期节目,我们将深度拆解一种超越传统 RAG 的新架构——Agentic File Search(代理式文件搜索)。我们将展示如何通过模拟人类的阅读习惯——“快速扫视目录、决策精读重点、遇到引用回溯查找”,来构建一个具备深层理解能力的智能系统。您将了解到:
- RAG 的“语义陷阱”:为何说基于向量相似度的检索在处理“详见附件 B”这类跨文档引用时不仅无效,甚至会引入误导性信息?
- Agentic Search 的核心策略:
Parallel Scanning(并行扫描):如何利用大模型的长上下文能力(如 Gemini Flash)并行处理数十个文件的元数据,通过“预览(Preview)”而非“全读”来极大提升效率?
Iterative Reasoning(迭代推理):智能体如何通过结构化输出(Structured Output)自主判断“信息不足”,并触发新的搜索请求?
Backtracking(回溯机制):当 AI 在文档 A 中发现指向文档 B 的线索时,系统如何设计“回头看”的路径,实现逻辑闭环? - 架构权衡与落地:在速度与精度之间,何时该坚持使用毫秒级的 RAG,何时必须切换到分钟级但高精度的 Agentic Search?
- LlamaIndex Workflow 实战:深入代码层面,解析如何利用事件驱动的工作流来编排这个复杂的“扫描-阅读-决策”循环。
这不仅是一个技术 Demo 的展示,更是一次关于 AI 如何从“信息检索工具”进化为“逻辑推理引擎”的深度探讨。无论您是 AI 架构师还是致力于解决复杂业务痛点的开发者,都能从中获得构建高智商 Agent 的蓝图。
时点内容 | Key Topics
- RAG 的局限性与“切片”之痛:传统 RAG 将文档切分为独立片段,虽然利于检索,但破坏了文档的整体性和上下文关联。在处理涉及多个文件的复杂问题(如“根据 A 协议的定义查找 B 合同中的条款”)时,这种碎片化会导致关键信息丢失。
- Agentic Search 的核心理念:这是一种模拟人类研究员工作流程的架构。它不依赖预先计算的向量索引,而是通过“扫描-决策-阅读”的动态循环,根据任务需求实时决定读取哪些内容。
- 关键技术一:Preview & Decide(预览与决策):
系统首先生成所有文件的简短摘要或读取前几页(Head),而非全文。
利用 LLM 的推理能力,根据问题判断哪些文件 可能 包含答案,从而过滤掉无关噪音。 - 关键技术二:Parallel I/O(并行输入输出):为了解决实时读取大量文件的速度问题,系统采用异步并行处理(Python AsyncIO),同时“扫视”数十个文件,将处理时间从线性累加变为极短的并发窗口。
- 关键技术三:回溯与引用追踪:这是 Agentic Search 的杀手锏。当 AI 在阅读中遇到“Refer to Exhibit X(参见附件 X)”时,它能通过工作流(Workflow)生成一个新的检索事件,自动去查找被引用的文件,即便该文件最初未被选中。
- 工具与模型选型:
Gemini Flash:利用其超大的上下文窗口和极低的成本,使其成为处理海量“预览”文本的理想选择。
LlamaIndex Workflows:通过事件驱动的方式管理复杂的循环和状态,替代了传统的线性链式结构,让 Agent 的行为更可控、更易调试。 - Structured Output(结构化输出)的作用:为了防止 Agent 在复杂循环中“发疯”或输出不可解析的内容,必须强制模型输出严格的 JSON 格式(如 Pydantic 对象),明确指示下一步是“继续搜索”、“读取文件”还是“回答问题”。
- 应用场景对比(RAG vs. Agentic):
RAG:适用于低延迟、针对单一事实的问答(如“公司的退货政策是什么?”)。
Agentic Search:适用于高价值、需要综合推理的复杂任务(如“分析这 20 份合同中哪一份包含最严格的竞业禁止条款?”),虽然耗时较长(可能需要 30-60 秒),但能提供人类专家级的分析结果。
相关链接与资源:
[视频来源]www.youtube.com
本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来比较奇怪。如想了解更多信息,请关注微信公众号“心流赫兹”获取AI最新资讯。
