EP140：LlamaIndex 实战-如何解决RAG 失效的“跨文档引用”

在企业级应用中，RAG（检索增强生成）常被视为解决大模型幻觉的“银弹”，但在处理复杂的法律尽职调查、金融审计或技术文档排查时，传统的 RAG 往往因为“切片（Chunking）”破坏了文档结构，导致跨文档的逻辑链条断裂。如何让 AI 不仅仅是做“关键词匹配”，而是像资深分析师一样，具备在海量文件中“顺藤摸瓜”的推理能力？

本期节目，我们将深度拆解一种超越传统 RAG 的新架构——Agentic File Search（代理式文件搜索）。我们将展示如何通过模拟人类的阅读习惯——“快速扫视目录、决策精读重点、遇到引用回溯查找”，来构建一个具备深层理解能力的智能系统。您将了解到：

RAG 的“语义陷阱”：为何说基于向量相似度的检索在处理“详见附件 B”这类跨文档引用时不仅无效，甚至会引入误导性信息？

Agentic Search 的核心策略：
Parallel Scanning（并行扫描）：如何利用大模型的长上下文能力（如 Gemini Flash）并行处理数十个文件的元数据，通过“预览（Preview）”而非“全读”来极大提升效率？
Iterative Reasoning（迭代推理）：智能体如何通过结构化输出（Structured Output）自主判断“信息不足”，并触发新的搜索请求？
Backtracking（回溯机制）：当 AI 在文档 A 中发现指向文档 B 的线索时，系统如何设计“回头看”的路径，实现逻辑闭环？

架构权衡与落地：在速度与精度之间，何时该坚持使用毫秒级的 RAG，何时必须切换到分钟级但高精度的 Agentic Search？

LlamaIndex Workflow 实战：深入代码层面，解析如何利用事件驱动的工作流来编排这个复杂的“扫描-阅读-决策”循环。

这不仅是一个技术 Demo 的展示，更是一次关于 AI 如何从“信息检索工具”进化为“逻辑推理引擎”的深度探讨。无论您是 AI 架构师还是致力于解决复杂业务痛点的开发者，都能从中获得构建高智商 Agent 的蓝图。

时点内容 | Key Topics

RAG 的局限性与“切片”之痛：传统 RAG 将文档切分为独立片段，虽然利于检索，但破坏了文档的整体性和上下文关联。在处理涉及多个文件的复杂问题（如“根据 A 协议的定义查找 B 合同中的条款”）时，这种碎片化会导致关键信息丢失。

Agentic Search 的核心理念：这是一种模拟人类研究员工作流程的架构。它不依赖预先计算的向量索引，而是通过“扫描-决策-阅读”的动态循环，根据任务需求实时决定读取哪些内容。

关键技术一：Preview & Decide（预览与决策）：
系统首先生成所有文件的简短摘要或读取前几页（Head），而非全文。
利用 LLM 的推理能力，根据问题判断哪些文件可能包含答案，从而过滤掉无关噪音。

关键技术二：Parallel I/O（并行输入输出）：为了解决实时读取大量文件的速度问题，系统采用异步并行处理（Python AsyncIO），同时“扫视”数十个文件，将处理时间从线性累加变为极短的并发窗口。

关键技术三：回溯与引用追踪：这是 Agentic Search 的杀手锏。当 AI 在阅读中遇到“Refer to Exhibit X（参见附件 X）”时，它能通过工作流（Workflow）生成一个新的检索事件，自动去查找被引用的文件，即便该文件最初未被选中。

工具与模型选型：
Gemini Flash：利用其超大的上下文窗口和极低的成本，使其成为处理海量“预览”文本的理想选择。
LlamaIndex Workflows：通过事件驱动的方式管理复杂的循环和状态，替代了传统的线性链式结构，让 Agent 的行为更可控、更易调试。

Structured Output（结构化输出）的作用：为了防止 Agent 在复杂循环中“发疯”或输出不可解析的内容，必须强制模型输出严格的 JSON 格式（如 Pydantic 对象），明确指示下一步是“继续搜索”、“读取文件”还是“回答问题”。

应用场景对比（RAG vs. Agentic）：
RAG：适用于低延迟、针对单一事实的问答（如“公司的退货政策是什么？”）。
Agentic Search：适用于高价值、需要综合推理的复杂任务（如“分析这 20 份合同中哪一份包含最严格的竞业禁止条款？”），虽然耗时较长（可能需要 30-60 秒），但能提供人类专家级的分析结果。