【第618期】无状态决策记忆：企业级AI智能体架构

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Stateless Decision Memory for Enterprise AI Agents

Summary

在受监管领域（如保险核保、理赔裁决、税务稽查）中，企业级长周期决策智能体的部署目前仍由检索增强管道（Retrieval-augmented pipelines，即 RAG）主导，尽管过去十年中涌现出了越来越多尖端的有状态记忆架构（Stateful memory architectures）。我们认为，这反映了一个隐藏的核心需求：受监管领域的部署高度依赖四项系统属性——确定性回放（Deterministic replay）、可审计的推导过程（Auditable rationale）、多租户隔离（Multi-tenant isolation）以及用于水平扩展的无状态性（Statelessness for horizontal scale）——而有状态架构在架构设计上就违背了这些属性。

为此，我们提出了确定性投影记忆（Deterministic Projection Memory，简称 DPM）：它由一个仅允许追加的事件日志（Append-only event log）以及在决策时生成的一个基于任务条件的投影（Task-conditioned projection）组成。

在 3 种不同的记忆预算（Memory budgets）和 10 个受监管决策案例的测试中：

在预算充裕时，DPM 的表现与基于摘要的记忆架构（Summarization-based memory）相当。
在预算受限时，DPM 的优势显著：在 20 倍的压缩率下，DPM 将事实精准度（Factual precision）提升了 +0.52（Cohen's h=1.17, p=0.0014），将推理连贯性（Reasoning coherence）提升了 +0.53（h=1.13, p=0.0034；配对置换检验，n=10）。
在性能与成本方面，在预算受限时，DPM 的速度快了 7-15 倍，因为它在决策时只需进行 1 次大语言模型（LLM）调用，而不是 N 次。

在温度（Temperature）设为 0、每个案例重复运行 10 次的确定性研究中，结果显示两种架构都会继承 API 层面残留的非确定性，但两者的不对称性是结构性的：DPM 仅暴露 1 次非确定性调用，而摘要架构则会暴露 N 次复合（滚雪球式）调用。

审计范围（Audit surface）同样遵循这种 1 对 N 的模式：在 LongHorizon-Bench 基准测试中，DPM 每次决策仅记录 2 次 LLM 调用，而摘要架构则会记录 83-97 次。

最后，我们提出了 TAMS（一种供从业者进行架构选择的启发式方法），并对有状态记忆在企业运行条件下的失效模式进行了分析。本文的核心贡献在于指出：无状态性是解释企业为何偏好性能较弱但可回放的检索管道的核心支撑属性；同时，DPM 证明了在不承受检索带来的决策性能损失的前提下，这种无状态属性是完全可以实现的。

原文链接：arxiv.org