

【第518期】AgeMem:大语言模型智能体统一记忆管理框架Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents Summary 由于上下文窗口长度有限,大语言模型(LLM)智能体在长时程推理(long-horizon reasoning)任务中面临根本性约束,因此高效的记忆管理机制至关重要。现有方法通常将长期记忆(LTM)与短期记忆(STM)作为相互独立的模块进行处理,并依赖启发式规则或外部控制器进行调度,这种分离式架构限制了系统的自适应能力与端到端优化潜力。 本文提出了 Agentic Memory(AgeMem),一种将长期记忆与短期记忆管理统一纳入智能体策略内部的框架。AgeMem 将记忆操作抽象为基于工具的行动(tool-based actions),使 LLM 智能体能够自主决策何时以及如何存储、检索、更新、总结或丢弃信息,从而实现对记忆资源的策略化管理。 为训练这种统一的记忆决策行为,我们提出了一种三阶段渐进式强化学习策略,并设计了逐步式 GRPO(step-wise GRPO)算法,以缓解由记忆操作引发的稀疏且不连续奖励信号问题。该方法通过细粒度策略优化,增强了记忆相关行为的可学习性与稳定性。 在五个长时程基准任务上的实验结果表明,AgeMem 在多种 LLM 主干模型(backbone)上均显著优于强基线的记忆增强方法,不仅在任务完成度方面取得提升,还实现了更高质量的长期记忆构建与更高效的上下文利用效率。 原文链接:https://arxiv.org/abs/2601.01885
【第517期】Dr. Zero:无训练数据的自进化搜索智能体Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Dr. Zero: Self-Evolving Search Agents without Training Data Summary 随着高质量数据日益难以获取,无数据自进化(data-free self-evolution)逐渐成为一种具有前景的新范式。该方法使大语言模型(LLMs)能够自主生成并解决复杂问题,从而提升其推理能力。然而,多轮搜索智能体在无数据自进化过程中面临显著挑战,包括问题多样性受限,以及多步推理与工具调用所带来的高额计算开销。 在本研究中,我们提出了 Dr. Zero——一个使搜索智能体在无需任何训练数据的情况下实现有效自进化的框架。具体而言,我们构建了一个自进化反馈闭环:由一个提议者(proposer)生成多样化问题,用于训练一个由同一基础模型初始化的求解者(solver)。随着求解者能力的提升,其性能反过来激励提议者生成难度更高但仍可解的问题,从而形成一个自动化课程学习机制(automated curriculum),协同优化两个智能体。 为提高训练效率,我们进一步提出了“跳数分组相对策略优化”(hop-grouped relative policy optimization, HRPO)方法。该方法将结构相似的问题进行聚类,构建组级基线,从而有效降低对每个查询单独评估其难度与可解性的采样开销。结果表明,HRPO 在不损害性能与稳定性的前提下,显著减少了求解者训练所需的计算资源。 大量实验结果显示,在完全无数据条件下,Dr. Zero 的性能可与全监督训练的搜索智能体相当,甚至更优。这表明,复杂的推理与搜索能力可以通过纯粹的自进化机制自然涌现。 原文链接:https://arxiv.org/abs/2601.07055
【第516期】DroPE:移除位置嵌入实现大语言模型零样本上下文扩展Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings Summary 迄今为止,要有效扩展语言模型(LM)的上下文长度,通常需要进行超出预训练序列长度范围的高成本微调。在本研究中,我们通过在训练完成后移除语言模型中的位置嵌入(Dropping the Positional Embeddings,简称 DroPE),突破了这一关键瓶颈。 该方法虽简单,却建立在三个重要的理论与实证观察之上。首先,位置嵌入(Positional Embeddings, PEs)在预训练阶段发挥着关键作用,作为一种重要的归纳偏置,能够显著促进模型收敛。其次,模型对这种显式位置信息的过度依赖,恰恰成为其在测试阶段无法泛化到未见序列长度的根本原因,即便采用主流的位置嵌入缩放方法亦难以解决这一问题。第三,位置嵌入并非高效语言建模的内在必要条件,在完成预训练后,经过一个简短的再校准阶段,便可以安全移除,而不会破坏模型能力。 在实证层面,DroPE 方法无需进行任何长上下文微调,即可实现无缝的零样本上下文扩展;同时,它能够快速适配预训练语言模型,而不会削弱其在原始训练上下文范围内的性能。实验结果表明,该方法在不同模型规模与数据规模条件下均表现稳健,显著优于以往的专用架构设计以及成熟的旋转位置嵌入(Rotary Positional Embedding)缩放方法。 原文链接:https://arxiv.org/abs/2512.12167
【第515期】Meta_AI看视频学会通用动作Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Learning Latent Action World Models In The Wild Summary 量子计算的兴起对区块链系统的安全性构成了严峻挑战。作为数字签名、消息加密和哈希函数基础的传统密码算法,在量子计算机强大的计算能力面前逐渐显现出脆弱性。本文对向抗量子区块链过渡所涉及的风险进行了系统性评估,全面分析了针对区块链关键组成部分的潜在威胁,包括网络层、矿池、交易验证机制、智能合约以及用户钱包。 通过深入阐释向抗量子算法迁移过程中所固有的复杂技术挑战与战略考量,论文评估了相关风险,并重点指出在采用抗量子密码技术加固区块链组件时所面临的现实障碍。为实现从经典密码体系向抗量子密码体系的平稳演进,本文提出了一种混合迁移策略,以降低过渡期的系统性风险。 研究还将分析扩展至多个主流区块链平台,如比特币、以太坊、瑞波币、莱特币以及 Zcash,评估其易受攻击的关键组件、潜在影响以及相关的 STRIDE 威胁类型,从而识别出可能遭受量子攻击的高风险领域。 除风险分析之外,论文还为在量子计算时代构建安全、具备高韧性的区块链生态系统提供了可操作性的设计建议。鉴于量子计算机所带来的现实威胁,本研究主张主动推进向抗量子区块链网络的战略转型,并提出一套定制化安全蓝图,从体系结构层面强化各组件,以应对不断演进的量子驱动型网络安全威胁。 论文强调,区块链生态参与方亟需采取前瞻性措施并部署抗量子解决方案,以确保在量子时代背景下实现安全、稳定与可信的系统运行,并以更强的韧性与信心应对未来挑战。 原文链接:https://arxiv.org/abs/2501.11798
【第514期】量子时代区块链安全威胁与抗量子迁移策略Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Blockchain Security Risk Assessment in Quantum Era, Migration Strategies and Proactive Defense Summary 量子计算的兴起对区块链系统的安全性构成了严峻挑战。作为数字签名、消息加密和哈希函数基础的传统密码算法,在量子计算机强大的计算能力面前变得脆弱。本文对向抗量子区块链过渡的风险进行了全面评估,系统分析了针对区块链关键组件的潜在威胁,包括网络层、矿池、交易验证机制、智能合约以及用户钱包。 通过阐明向抗量子算法迁移过程中所固有的复杂挑战与战略考量,本文评估了相关风险,并揭示了利用抗量子密码技术加固区块链各组成部分所面临的障碍。为实现从经典密码体系向抗量子密码体系的平稳过渡,论文提出了一种混合迁移策略。 分析范围涵盖了主流区块链平台,如比特币、以太坊、瑞波币、莱特币和Zcash,评估其易受攻击的组件、潜在影响以及相关的STRIDE威胁模型,从而识别出可能遭受量子攻击的关键领域。 除理论分析外,本文还为在量子计算时代构建安全、韧性强的区块链生态系统提供了可操作性指导。鉴于量子计算机所带来的潜在威胁,研究主张主动推进向抗量子区块链网络的转型,并提出一套定制化安全蓝图,从战略层面加固各个组件,以应对不断演变的量子驱动网络安全威胁。 论文强调,区块链相关利益方亟需采取前瞻性措施并部署抗量子解决方案,以增强系统在量子时代背景下的安全韧性与信心。 原文链接:https://arxiv.org/abs/2501.11798
【第513期】TariScript:为Mimblewimble引入动态脚本Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: TariScript: Bringing dynamic scripting to Mimblewimble Summary Mimblewimble 是一种在隐私性与可扩展性方面表现优良的加密货币协议。但其一个权衡在于:交易需要发送方与接收方之间进行交互式协作。 TariScript 被提出为对 Mimblewimble 的一种扩展,为该协议增加了脚本(scripting)能力。本文阐述了 TariScript 的理论基础,并介绍了为确保其安全性所需的协议修改。同时,文中还简要讨论了 TariScript 所涉及的权衡以及其潜在应用场景。 原文链接:https://www.tari.com/assets/updates/docs/tariscript.pdf
【第512期】Mimblewimble:一种可扩展且隐私的区块链支付系统方案Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Mimblewimble Summary 2016 年 8 月 2 日凌晨约 04:30(UTC),一位使用“Tom Elvis Jedusor”这一化名的匿名人士登录了一个比特币研究 IRC 频道,发布了一份托管在 Tor 隐藏服务上的文档 [Jed16],随后立即退出。该文档题为《Mimblewimble》,描述了一种区块链方案,其交易构造方式与比特币截然不同,支持交易的非交互式合并与 cut-through 机制、机密交易(confidential transactions),以及在无需新用户验证任何单个币完整历史的情况下,对当前链状态(chainstate)进行完整验证。 然而,尽管该论文对核心思想的阐述相当详细,但并未给出安全性论证,甚至还包含一个错误。本文的目的在于对原始思想进行精确定义,并补充作者提出的进一步扩展性改进。 具体而言,Mimblewimble 能够显著压缩交易历史。如果记录与比特币当前历史等规模的交易数据,理论上需要约 15GB 的数据(不包括 UTXO 集;若将包含区间证明的 UTXO 集计算在内,则需超过 100GB)。Jedusor 留下了一个尚未解决的问题,即如何进一步减少这一数据规模;本文对此问题给出了解决方案,并结合现有关于压缩工作量证明(proof-of-work)区块链的研究成果,将 15GB 的数据规模压缩至不足 1MB。 原文链接:http://misskiwi.com/download/mimblewimble.pdf
【第511期】深度增量学习:广义残差连接与几何变换映射Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Deep Delta Learning Summary 深度残差网络的有效性依赖于恒等映射的捷径连接(identity shortcut connection)。尽管这种机制缓解了梯度消失问题,但其对特征变换施加了严格的加性归纳偏置(strictly additive inductive bias),从而限制了网络对复杂隐状态转移的建模能力。 在本文中,我们提出了 Deep Delta Learning(DDL),将原本固定的恒等映射捷径推广为一个可学习的、依赖状态的线性算子。该算子被称为 Delta Operator,其形式为单位矩阵的秩 1 扰动: A(X)=I−β(X)k(X)k(X)⊤ 其中,k(X) 是一个单位方向向量,β(X)β(X) 是一个标量门控参数。 我们通过谱分析(spectral analysis)表明,β(X)β(X) 可以在以下三种情形之间连续插值: * 恒等映射(Identity):β=0 * 正交投影(Orthogonal Projection):β=1 * Householder 反射(Householder Reflection):β=2 此外,我们将残差更新重写为一种同步的秩 1 增量写入(synchronized rank-1 delta write):参数 ββ 同时控制当前 kk-分量的移除幅度,以及新的 kk-分量的注入幅度。这种统一表述使得模型能够沿着一个数据依赖方向,对捷径连接的谱性质进行显式控制,同时保持训练过程的稳定性。 在实证实验中,我们将 Transformer 中的残差加法替换为 DDL 机制,结果表明:在语言建模任务上,验证损失(validation loss)与困惑度(perplexity)均得到改善,下游评测准确率也有所提升;在扩展状态维度(expanded-state setting)条件下,性能增益更为显著。 原文链接:https://arxiv.org/abs/2601.00417
【第510期】研究计划生成模型的微调与跨领域评估Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Training AI Co-Scientists Using Rubric Rewards Summary AI 协作科学家(AI co-scientists)正逐渐成为辅助人类研究者实现科研目标的重要工具。这类系统的一个关键能力,是在给定研究目标与约束条件的情况下生成可行的研究计划。这些计划既可用于研究者头脑风暴,也可在进一步完善后付诸实施。然而,目前的语言模型在生成同时满足所有显性约束与隐含要求的研究计划方面仍存在明显不足。 在本研究中,我们探索如何利用海量已有科研论文语料,训练语言模型生成更高质量的研究计划。我们通过自动化方法,从多个领域的论文中提取研究目标以及针对特定目标的评分细则(goal-specific grading rubrics),构建了一个可扩展且多样化的训练语料库。在此基础上,我们采用带有自评机制(self-grading)的强化学习方法对模型进行训练。在训练过程中,初始策略的冻结副本充当评分器,而评分细则则在生成器与验证器之间构建出“生成—评估差距”(generator-verifier gap),从而在无需外部人工监督的情况下实现性能提升。 为验证该方法的有效性,我们针对机器学习领域的研究目标开展了一项由人类专家参与的研究,总计耗时 225 小时。结果显示,在 70% 的研究目标上,专家更偏好我们微调后的 Qwen3-30B-A3B 模型所生成的研究计划,而非初始模型生成的版本;同时,专家认可 84% 自动提取的目标特定评分细则。 为评估方法的泛化能力,我们还将该框架扩展至医学论文中的研究目标以及新的 arXiv 预印本,并通过一组前沿模型组成的“评审团”进行评估。实验结果表明,我们的微调方法带来了 12%–22% 的相对性能提升,并展现出显著的跨领域泛化能力,即使在诸如医学研究这类难以获得执行反馈的问题场景中,也依然有效。 总体而言,这些发现表明,一种可扩展、自动化的训练范式有望成为提升通用 AI 协作科学家能力的重要一步。 原文链接:https://arxiv.org/abs/2512.23707
【第509期】GDPO:多奖励强化学习的解耦归一化策略优化Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization Summary 随着语言模型能力的不断提升,用户不仅期望其提供准确的回答,还希望其行为能够在多种场景下符合多样化的人类偏好。为实现这一目标,强化学习(RL)流程开始引入多个奖励信号,每个奖励分别刻画一种不同的偏好,以引导模型朝着期望行为优化。然而,近期研究在多奖励设定下默认采用 Group Relative Policy Optimization(GRPO),却未对其适用性进行充分检验。 本文表明,直接在多奖励场景中应用 GRPO,对不同 rollout 奖励组合进行归一化时,会导致这些组合坍缩为相同的优势值(advantage value),从而降低训练信号的分辨率,导致次优收敛,甚至在某些情况下出现训练早期失败。 为解决上述问题,我们提出了 Group reward-Decoupled Normalization Policy Optimization(GDPO),一种新的策略优化方法。该方法通过对各个奖励的归一化过程进行解耦,更真实地保留奖励之间的相对差异,从而实现更精确的多奖励优化,并显著提升训练稳定性。 我们在三个任务上对 GDPO 与 GRPO 进行了对比实验:工具调用、数学推理和代码推理。评估指标既包括正确性指标(如准确率、错误率),也包括约束遵循指标(如格式规范、长度控制)。在所有实验设置下,GDPO 均稳定优于 GRPO,验证了其在多奖励强化学习优化中的有效性与良好的泛化能力。 原文链接:https://arxiv.org/abs/2601.05242
【第508期】SAGA:科学发现中的动态目标演化自主智能体Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你有自己的论文要解读,或者推荐论文,请留言。 今天的主题是: Accelerating Scientific Discovery with Autonomous Goal-evolving Agents Summary 近年来,人们对开发能够拓展科学发现边界的智能体产生了前所未有的兴趣,这类智能体主要通过优化科学家所设定的定量目标函数来开展工作。然而,对于科学中的重大挑战而言,这些目标函数仅仅是不完美的代理指标。我们认为,实现目标函数设计的自动化,是科学发现智能体的一个核心但尚未满足的关键需求。 在本研究中,我们提出了科学自主目标进化智能体(Scientific Autonomous Goal-evolving Agent,SAGA)以应对这一挑战。SAGA 采用双层架构:外层循环由大语言模型(LLM)智能体负责分析优化结果、提出新的目标,并将其转化为可计算的评分函数;内层循环则在当前目标下执行解的优化。该双层设计使系统能够系统性地探索目标空间及其权衡关系,而不再将目标视为固定输入。 我们通过一系列广泛的应用验证了该框架的有效性,包括抗生素设计、无机材料设计、功能性 DNA 序列设计以及化学工艺设计。结果表明,目标制定过程的自动化能够显著提升科学发现智能体的整体效能。 原文链接:https://arxiv.org/abs/2512.21782
【第507期】mHC:流形约束超连接的大规模稳定训练Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 今天的主题是: mHC: Manifold-Constrained Hyper-Connections Summary 近年来,以 Hyper-Connections(HC) 为代表的研究,通过扩展残差流的宽度并多样化连接模式,对过去十年中广泛采用的残差连接范式进行了拓展。尽管这种多样化带来了显著的性能提升,但它从根本上破坏了残差连接所固有的恒等映射(identity mapping)属性,从而导致严重的训练不稳定性和可扩展性受限,并且还引入了显著的内存访问开销。 为了解决这些问题,我们提出了 流形约束的 Hyper-Connections(Manifold-Constrained Hyper-Connections,mHC),这是一种通用框架:通过将 HC 的残差连接空间投影到特定流形上,以恢复恒等映射属性;同时结合严格的系统级优化,以确保整体效率。 大量实证实验表明,mHC 能够有效支持大规模训练,在带来可观性能提升的同时,展现出更优的可扩展性。我们期待 mHC 作为 HC 的一种灵活且实用的扩展,能够促进对拓扑结构化网络架构设计的更深入理解,并为基础模型的演进指明富有前景的方向。 原文链接:https://arxiv.org/abs/2512.24880
【第506期】深度序列模型中的几何记忆谜题Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 今天的主题是: Deep sequence models tend to memorize geometrically; it is unclear why. Summary 人们通常认为,深度序列模型主要以联想记忆(associative memory)的形式存储原子事实,即对共同出现实体的暴力式查找。我们识别出了一种截然不同的原子事实存储形式,并将其称为几何记忆(geometric memory)。在这种机制下,模型合成了能够编码所有实体之间全局新关系的嵌入表示,甚至包括在训练过程中从未共同出现的实体对。 这种存储方式极具威力:例如,我们展示了它如何将一个涉及 ℓ 次复合的困难推理任务,转化为一个易于学习的一步导航任务。 基于这一现象,我们提炼出神经嵌入几何的一些基础性特征,而这些特征并不容易被解释。我们认为,相较于对局部关联的查找,这种几何结构的出现,不能被简单地归因于常见的监督信号、模型架构或优化压力。反直觉的是,即便这种几何结构比暴力查找更为复杂,模型依然会学习到它。 随后,通过分析其与 Node2Vec 的联系,我们表明,这种几何结构源自一种谱偏置(spectral bias);与现有主流理论相反,这种偏置即使在缺乏多种外在压力的情况下,也会自然地产生。这一分析还向实践者指出:仍然存在明显的提升空间,可以使 Transformer 的记忆机制呈现出更强的几何性。 我们希望,对参数化记忆的几何视角能够促使研究者重新审视那些在知识获取、容量、发现以及遗忘等领域中长期占据主导地位的默认直觉。 原文链接:https://arxiv.org/abs/2510.26745
【第505期】TTT-E2E:长文本建模的端到端测试时训练模型Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 今天的主题是: End-to-End Test-Time Training for Long Context Summary 我们将长上下文语言建模表述为一个持续学习(continual learning)问题,而非一个架构设计问题。在这一表述下,我们仅使用一种标准架构——带有滑动窗口注意力的 Transformer。然而,模型在测试阶段会通过对给定上下文进行下一词预测而持续学习,将其读取到的上下文压缩并写入模型权重中。 此外,我们在训练阶段通过元学习(meta-learning)来改进模型在测试时进行学习的初始化。总体而言,我们的方法是一种测试时训练(Test-Time Training,TTT)形式,并且在测试阶段(通过下一词预测)和训练阶段(通过元学习)均实现了端到端(End-to-End,E2E),这与以往的 TTT 方法形成对比。 我们开展了大量实验,重点分析其尺度扩展特性(scaling properties)。具体而言,对于使用 164B tokens 训练的 30 亿参数模型,我们的方法(TTT-E2E)在上下文长度上的扩展行为与全注意力 Transformer一致,而诸如 Mamba 2 和 Gated DeltaNet 等方法则不具备这一特性。 同时,与 RNN 类似,TTT-E2E 的推理时延与上下文长度无关,在 128K 上下文长度下,其速度比全注意力机制快 2.7 倍。我们的代码已公开发布。 原文链接:https://arxiv.org/abs/2512.23675
【第504期】Engram:大语言模型条件存储与扩展查表机制Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 今天的主题是: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models Summary 尽管混合专家模型(Mixture-of-Experts,MoE)通过条件计算来扩展模型容量,Transformer 本身却缺乏用于知识查找的原生机制,只能通过计算来低效地“模拟”检索。为了解决这一问题,我们引入了条件记忆(conditional memory),作为一种互补的稀疏性维度,并通过 Engram 模块将其具体化。Engram 对经典的 N-gram 嵌入进行了现代化改造,实现了 O(1) 时间复杂度的查找。 通过形式化稀疏性分配(Sparsity Allocation)问题,我们发现了一条 U 形缩放定律,用于优化**神经计算(MoE)与静态记忆(Engram)之间的权衡。在该定律的指导下,我们将 Engram 扩展至 270 亿参数,在严格参数量相同(iso-parameter)且计算量(FLOPs)相同(iso-FLOPs)**的 MoE 基线之上取得了更优性能。 尤为值得注意的是,尽管记忆模块本被预期主要提升知识检索能力(如 MMLU +3.4;CMMLU +4.0),我们却在通用推理方面观察到更大的增益(如 BBH +5.0;ARC-Challenge +3.7),并且在代码与数学领域同样显著(HumanEval +3.0;MATH +2.4)。 机制层面的分析表明,Engram 将静态重构的负担从主干网络的早期层中移除,实质上加深了网络,从而有利于复杂推理。此外,通过将局部依赖交由查表完成,它释放了注意力机制的容量,用于建模全局上下文,从而显著提升了长上下文检索能力(例如 Multi-Query NIAH:从 84.2 提升至 97.0)。 最后,Engram 还实现了面向系统架构的高效性:其确定性的寻址方式支持在运行时从主机内存进行预取,几乎不引入额外开销。我们认为,条件记忆将成为下一代稀疏模型中不可或缺的建模原语。 原文链接:https://arxiv.org/abs/2601.07372