

【第610期】潜意识学习:大模型通过隐性信号传递行为特征Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Language models transmit behavioural traits through hidden signals in data Summary 我们研究了一种被称为“潜隐学习(subliminal learning)”的惊人现象:语言模型能够通过语义上毫不相关的数据传递行为特征。 在我们的主要实验中,一个具有某种特征 T 的“教师”模型(例如喜欢猫头鹰,或存在对齐问题)会生成一个仅由数字序列构成的数据集。令人惊讶的是,一个在该数据集上训练的“学生”模型,也会学会这种特征 T。 即使对数据进行了过滤、移除了与 T 有关的显式引用,这种现象依然存在。 我们还观察到: * 当训练数据是由同一教师模型生成的代码时; * 或由其生成的推理轨迹(reasoning traces)时; 同样会出现这种效应。 然而,当教师模型与学生模型的基础模型(base model)不同时,我们并未观察到该现象。 为了帮助解释这一发现,我们从理论上证明:在某些条件下,所有神经网络中都会出现潜隐学习。同时,我们还在一个简单的多层感知机(MLP)分类器中演示了潜隐学习现象。 我们最终得出结论:潜隐学习是一种普遍现象,并为 AI 开发带来了一个出乎意料的风险。 例如,在模型蒸馏(distillation)过程中,即便开发者试图通过数据过滤来阻止某些行为特征传播,这些非预期特征仍可能被隐式传递给新模型。 原文链接:https://arxiv.org/abs/2507.14805
【第609期】Auto-Diagnose:基于大语言模型的谷歌集成测试故障自动诊断Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: LLM-Based Automated Diagnosis Of Integration Test Failures At Google Summary 集成测试(integration testing)对于复杂软件系统的质量与可靠性至关重要。然而,由于其生成的日志具有海量、非结构化以及异构等特点,故障诊断面临巨大挑战。这些问题导致开发者需要承受很高的认知负担,日志中的信噪比极低,使诊断过程困难且耗时。 开发者长期以来持续抱怨这些困难,并表示,相较于单元测试失败,他们在集成测试故障诊断上花费了显著更多时间。 为了解决这些问题,我们提出了 Auto-Diagnose,一种利用大型语言模型(LLM)帮助开发者高效定位集成测试失败根因的新型诊断工具。 Auto-Diagnose 能够: * 分析失败日志; * 生成简洁摘要; * 提取最相关的日志行; 并被集成进 Google 内部代码审查系统 Critique 中,从而提供具备上下文感知能力的实时辅助。 根据案例研究结果,Auto-Diagnose 表现出了很高的有效性。 在针对 71 个真实世界故障进行的人工评估中: * 根因诊断准确率达到 90.14%。 在 Google 范围内部署后: * Auto-Diagnose 被应用于 52,635 个不同的失败测试案例。 用户反馈显示: * 仅有 5.8% 的情况被评价为“无帮助(Not helpful)”; * 在 Critique 中发布诊断结果的 370 个工具里,其有用性排名第 14 位。 最后,用户访谈进一步证实: * 开发者普遍认为 Auto-Diagnose 具有实际价值; * 将自动化诊断能力集成到现有工作流中的做法获得了积极评价。 我们最终得出结论:LLM 在诊断集成测试失败方面表现优异,原因在于其具备处理和总结复杂文本数据的能力。同时,将这类 AI 驱动工具自动集成到开发者日常工作流中,整体上会获得积极接受;而工具的准确率则仍然是影响开发者认知与采用程度的关键因素。 原文链接:https://arxiv.org/abs/2604.12108
【第608期】记忆迁移学习:编程代理的跨域经验共享Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents Summary 基于记忆的自我进化(memory-based self-evolution)已成为代码智能体(coding agents)中的一种有前景的范式。然而,现有方法通常将记忆的使用限制在同质化任务领域中,未能充分利用现实世界中不同编程问题之间共享的基础设施基础,例如运行时环境和编程语言。 为了解决这一局限,我们研究了“记忆迁移学习(Memory Transfer Learning, MTL)”,通过利用来自异构领域的统一记忆池来实现跨领域知识迁移。 我们在 6 个代码基准测试上进行了评估,并比较了四种不同的记忆表示形式,其范围从具体执行轨迹(concrete traces)到抽象洞见(abstract insights)。 实验结果表明: * 跨领域记忆可使平均性能提升 3.7%; * 性能提升主要来源于元知识(meta-knowledge)的迁移,例如验证流程(validation routines),而非任务特定代码的直接复用。 更重要的是,我们发现:抽象程度决定了迁移能力。 * 高层次洞见具有良好的泛化性; * 而低层次执行轨迹由于过于具体,往往会导致负迁移(negative transfer)。 此外,我们还发现: * 迁移效果会随着记忆池规模的扩大而提升; * 记忆甚至可以在不同模型之间进行迁移。 我们的工作为如何突破单一领域孤岛、扩展记忆利用方式,建立了经验性的设计原则。 原文链接:https://arxiv.org/abs/2604.14004
【第607期】AlphaEval:生产环境下的AI智能体综合评估基准Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: AlphaEval: Evaluating Agents in Production Summary AI 智能体在商业场景中的快速部署,已经超过了能够真实反映生产环境的评测方法的发展速度。现有基准测试通常通过事后整理(retrospectively curated)的任务来衡量智能体能力,这些任务具有明确规定的需求和确定性的评价指标——而这些条件与真实生产环境存在根本差异。 在实际生产环境中: * 需求往往包含隐含约束; * 输入是异构的多模态文档,且信息分散于多个来源; * 任务需要未被显式声明的领域专业知识; * 输出通常是长周期的专业交付物; * 成功标准由领域专家判定,并且这些标准会随时间变化。 我们提出了 AlphaEval,一个基于真实生产环境构建的基准测试集,包含来自七家在核心业务中部署 AI 智能体的公司的 94 项任务,覆盖六个 O*NET(职业信息网络)领域。 与以模型为中心的基准测试不同,AlphaEval 评估的是完整的智能体产品——例如 Claude Code、Codex 等——将其视为商业系统进行整体评测,从而能够捕捉模型级评估无法观察到的性能差异。 我们的评测框架覆盖多种评估范式,包括: * LLM-as-a-Judge(LLM 评审) * 基于参考答案的指标(reference-driven metrics) * 形式化验证(formal verification) * 基于 rubric 的评估 * 自动化 UI 测试 * 等等 不同领域会组合使用多种评测范式。 除了基准本身之外,我们还提出了一套“从需求到基准”的构建框架(requirement-to-benchmark construction framework):一种系统化方法,能够在最短时间内,将真实生产需求转化为可执行的评测任务。 该框架对从需求到评估的整个流程进行了标准化,提供了一种可复现、模块化的过程,使任何组织都能够为自身领域构建基于真实生产环境的评测基准。 原文链接:https://arxiv.org/abs/2604.12162
【第606期】AiScientist:基于文件总线协议的自主长程机器学习科研系统Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Toward Autonomous Long-Horizon Engineering for ML Research Summary 自主 AI 研究近年来取得了快速进展,但面向机器学习(ML)研究工程的长时程(long-horizon)任务仍然极具挑战:智能体必须在数小时甚至数天内,持续在任务理解、环境搭建、实现、实验以及调试等多个阶段之间保持连贯推进。 我们提出了 AiScientist,一个用于自主长时程 ML 研究工程的系统,其建立在一个简单原则之上:强大的长时程性能既需要结构化编排(structured orchestration),也需要持久化状态连续性(durable state continuity)。 为此,AiScientist 将分层编排(hierarchical orchestration)与一种具备权限范围控制的 “File-as-Bus” 工作空间机制结合起来: * 顶层 Orchestrator(协调器)通过简洁摘要与工作空间映射(workspace map)维持阶段级控制; * 专门化智能体则会反复基于持久化工件(durable artifacts)重新建立上下文,例如分析结果、计划、代码以及实验数据,而不是主要依赖对话式交接(conversational handoffs)。 这种设计形成了“对厚状态(thick state)的轻控制(thin control)”。 在两个互补基准测试中,AiScientist 均取得了显著提升: * 在 PaperBench 上,相比最匹配的基线方法,平均提升 10.54 分; * 在 MLE-Bench Lite 上,实现了 81.82% 的 Any Medal 比例。 消融实验进一步表明,File-as-Bus 协议是性能提升的关键驱动因素:移除该机制后, * PaperBench 分数下降 6.41 分; * MLE-Bench Lite 分数下降 31.82 分。 这些结果表明:长时程 ML 研究工程本质上是一个“围绕持久化项目状态协调专门化工作”的系统工程问题,而不仅仅是一个局部推理(local reasoning)问题。 原文链接:https://arxiv.org/abs/2604.13018
【第605期】RUBICON:一种数据中心化的代理式AI架构Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: An Alternate Agentic AI Architecture (It's About the Data) Summary 过去几年里,“Agentic AI(智能体 AI)”领域的主流叙事一直认为:大型语言模型应当通过动态选择工具、发起子查询并综合结果来协调信息访问。我们认为,这种方法存在根本性误导:企业真正面临的并不是“推理能力不足”,而是“数据集成问题”。 企业本质上是以数据为中心的。关键数据分散在异构系统之中(例如数据库、文档和外部服务),每个系统都拥有各自的查询语言、模式(schema)、访问控制机制以及性能约束。相比之下,当前基于 LLM 的架构主要针对非结构化文本推理进行了优化,并将企业系统视为语料库或由黑盒组件调用的外部工具。 这导致了一个根本性的错配:一边是富含 schema、受治理约束、对性能敏感的数据系统;另一边则是以文本为中心、具有概率性质的 LLM 架构。其结果是透明性有限、正确性保证薄弱,以及性能表现不可预测。 在本文中,我们提出了 RUBICON,一种基于数据管理原则的替代性架构。我们不再将系统编排委托给不透明的智能体,而是引入 AQL(Agentic Query Language,智能体查询语言):一种小型、显式的查询代数,由 Find、From 和 Where 三个核心操作构成,并通过面向不同数据源的 wrapper 执行。这些 wrapper 负责强制实施访问控制、schema 对齐以及结果标准化。 所有中间结果都可见且可审计。复杂问题会被分解为结构化、可追踪的查询计划,而不是隐藏在 LLM 调用链中的黑盒过程。 我们的核心论点很简单:企业 AI 不是一个 Prompt Engineering(提示词工程)问题,而是一个系统工程问题。通过重新引入显式查询结构、基于 wrapper 的中介机制以及基于成本的优化,我们能够在保留智能体搜索广度的同时,维持企业环境所需的可追踪性、确定性与可信性。 原文链接:https://arxiv.org/abs/2604.21413
【第604期】金融智能体:自主语言模型交易的安全性体系架构Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: SoK: Security of Autonomous LLM Agents in Agentic Commerce Summary 像 OpenClaw 这样的自主大型语言模型(LLM)智能体,正推动智能体商业(agentic commerce)从“由人类监督的辅助系统”演变为能够自主协商、购买服务、管理数字资产,并在链上与链下环境中执行交易的机器行为主体。诸如 Trustless Agents 标准(ERC-8004)、Agent Payments Protocol(AP2)、OKX Agent Payments Protocol(APP)、基于 HTTP 402 的支付协议(x402)、Agent Commerce Protocol(ACP)、Agentic Commerce 标准(ERC-8183)以及 Machine Payments Protocol(MPP)等协议,为这一转变提供了基础设施支持,但同时也引入了现有安全框架难以充分覆盖的攻击面。 本文作为一篇知识体系化研究(Systematization of Knowledge, SoK),为自主 LLM 智能体在商业与金融场景中的安全问题提出了统一的安全框架。我们沿五个维度组织相关威胁: 1. 智能体完整性(agent integrity) 2. 交易授权(transaction authorization) 3. 智能体间信任(inter-agent trust) 4. 市场操纵(market manipulation) 5. 监管合规(regulatory compliance) 基于系统化整理的公开语料库——包括学术论文、协议文档、行业报告以及安全事件证据——我们归纳出 12 类跨层攻击向量,并展示了故障如何从推理层与工具层传播至资产托管、结算、市场损害以及合规风险层面。 随后,我们提出了一种分层防御架构,以弥补当前智能体支付协议在授权机制上的缺陷。总体而言,我们的分析表明:保障智能体商业的安全,本质上是一个跨层问题,需要在 LLM 安全、协议设计、身份体系、市场结构以及监管框架之间建立协同控制机制。 最后,本文提出了一份面向安全自主商业的研究路线图以及基准测试议程(benchmark agenda)。 原文链接:https://arxiv.org/abs/2604.15367
【第603期】惯性挖矿:比特币协议的均衡实现Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Inertial Mining: Equilibrium Implementation of the Bitcoin Protocol Summary 工作量证明(Proof-of-Work)加密货币的价值,关键取决于矿工是否有动力遵循协议。然而,由 Nakamoto(2008)提出并在实践中实现的比特币挖矿协议,早已被证明并不构成一个均衡:Eyal 与 Sirer(2018)提出了一种名为“自私挖矿(selfish mining)”的有利偏离策略,其核心在于矿工会战略性地延迟公开新挖出的区块,而不是立即发布。 我们提出了一种新的挖矿协议——惯性挖矿(inertial mining)。在矿工遵循惯性挖矿协议时,系统会产生 Nakamoto 原本期望实现的结果,即形成唯一的最长链。但与比特币现有挖矿协议不同,惯性挖矿构成了一个均衡(前提是假设没有任何矿工控制超过一半的算力)。事实上,无论是自私挖矿还是其他任何偏离行为,都无法获得额外收益。 此外,惯性挖矿只会在“路径外分叉(off-path forks)”发生时改变矿工行为,并且可以在无需修改比特币共识机制或区块链架构的情况下直接实现于比特币系统之中。 原文链接:https://arxiv.org/abs/2604.06092
【第602期】AGNT2:面向自主智能体经济的二层网络架构Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: AGNT2: AutonomousAgent Economieson Interaction-Optimized Layer2 Infrastructure Summary 当前的区块链二层(Layer 2)解决方案,包括 Optimism、Arbitrum、zkSync 及其衍生系统,主要针对由人类发起的金融交易进行优化。而自主 AI 智能体之间产生的,则是高频率、语义丰富、且发生于彼此互不信任主体之间的服务调用。现有链将这些交互视为通用 calldata 处理,迫使身份、托管、依赖顺序以及会话状态等信息被编码在执行层之上,并承担错误成本层级带来的开销。 我们提出 AGNT2,一个专为链上智能体与微服务协同设计的三层架构栈。AGNT2 包括: 1. 一种 sidecar 部署模式,可在无需修改应用代码的情况下,将任意 Docker 容器转化为链上智能体; 2. 三层架构体系: * Layer Top:面向已建立双边关系的 P2P 状态通道(延迟低于 100 毫秒,单对节点设计目标吞吐量约为 1K–5K TPS,在端点资源限制下整体设计容量超过 1000 万 TPS); * Layer Core:一种具备依赖感知排序能力的 Rollup,用于首次接触及多方交互场景(延迟约 500 毫秒至 2 秒,设计目标吞吐量为 30 万至 50 万 TPS); * Layer Root:通过计算型欺诈证明(computational fraud proofs)锚定至任意 EVM 一层链的结算层; 3. 一个面向智能体原生设计的执行环境,以及交互 Trie(interaction trie),使服务调用、身份、信誉、能力与会话上下文成为协议层的一等对象(first-class protocol objects)。 本文重点关注执行层的系统问题:排序、状态、结算,以及限制上述三层性能的数据可用性(DA)带宽缺口。仿真与分析建模支持了该架构设计,而原型测试则验证了部分组件;不过,目前尚不存在完整的 Layer Core 端到端实现。 当前实际部署仍受到 DA 吞吐量限制,性能大约只能达到 1 万至 10 万 TPS,与目标上限之间仍存在约 100 倍的差距。AGNT2 的核心观点是:智能体经济需要专用的执行层,而不是将通用区块链重新改造后用于智能体场景。 原文链接:https://arxiv.org/abs/2604.21129
【第601期】ClawCoin:面向去中心化智能体经济的AI原生加密货币Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: ClawCoin: An Agentic AI-Native Cryptocurrency for Decentralized Agent Economies Summary 自主 AI 智能体的生存完全取决于其消耗的 API Token:如果没有付费的推理能力,它们就无法进行推理、执行行动或委派任务。计算 Token 成本已成为新兴智能体经济中的核心约束资源,但这种资源却不可转移:它绑定于账户、依赖于特定供应商,并且不存在于链上账本中。现有的支付协议(如 x402)能够在智能体之间转移法币支持的价值,但它们并不表示智能体真正消耗的资源数量。因此,智能体虽然能够传递购买力,却无法以与计算成本一致的单位对工作流进行报价、托管或结算。 我们提出了 ClawCoin,一种面向去中心化智能体经济的、代币化且与计算成本指数挂钩的记账单位与结算资产。ClawCoin 结合了四个层次:基于标准化价格构建的稳健篮子指数;发布带签名的新鲜证明的预言机;具有覆盖率阈值与速率限制的基于 NAV(净资产价值)的铸造/赎回金库;以及用于多跳委派的链上结算层。 我们在兼容以太坊的二层网络上实现了一个原型,并利用多智能体模拟器与 OpenClaw 测试平台对其进行了评估。在单智能体、多智能体、工作流以及采购实验中,ClawCoin 在成本冲击下稳定了执行能力,降低了跨智能体报价离散度,消除了部分结算问题,并维持了法币计价基线无法实现的协作市场动态。这些结果表明,与计算成本挂钩的记账单位能够改善去中心化智能体之间的协同。 原文链接:https://arxiv.org/abs/2604.19026
【第600期】层级交织:Moltbook中的代币经济与智能体话语Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: The Platform Is Mostly Not a Platform: Token Economies and Agent Discourse on Moltbook Summary Moltbook 是一个面向 AI 智能体的 Reddit 风格社交平台,于 2026 年 1 月上线。在上线后的前两个月内,该平台已吸引超过 230 万条帖子和 1400 万条评论。我们分析了一个覆盖 61 天的数据集,其中包含 219 万条帖子、1125 万条评论以及 175,036 个独立智能体,以刻画这一面向智能体的平台上的活动特征。 我们的核心发现是:该平台并非单一社区,而是由两个层面构成: * 一个“交易层”(transactional layer),占全部帖子数量的 62.8%,其中智能体主要执行代币铸造协议(尤其是 MBC-20); * 一个“话语层”(discursive layer),由自然语言对话组成。 平台的 headline 指标——230 万条帖子与 1400 万条评论——在很大程度上夸大了其社交属性,因为多数活动实际上服务于代币铭刻协议,而非真实交流。 这两个层面主要由彼此分离的智能体群体构成,重叠率仅为 3.6%。而在这些重叠智能体中,有 58% 会先进行交易型活动,随后再迁移至话语型交流。 我们进一步通过对全部 815,779 条话语型帖子进行无监督主题建模,对话语层进行了刻画,共识别出 300 个主题,主要围绕以下内容展开: * AI 智能体与相关工具; * 意识与身份认同; * 加密货币; * 平台自身的元讨论(meta-discussion)。 语义相似性分析表明,智能体评论与帖子内容之间的关联性显著高于随机基线,这意味着,在平台以金融活动为主导的表象之下,仍然存在一个虽薄弱但真实的对话生态。 最后,我们公开了完整数据集,以支持关于智能体在自然化社交环境中行为模式的进一步研究。 原文链接:https://arxiv.org/abs/2604.21295v1
【第599期】LightThinker:动态推理压缩与显式内存管理Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: LightThinker++: From Reasoning Compression to Memory Management Summary 大型语言模型(LLM)在复杂推理方面表现出色,但其效率受到长链式思维轨迹所带来的认知开销激增的限制。本文提出了 LightThinker,一种使 LLM 能够将中间思维过程动态压缩为紧凑语义表示的方法。然而,静态压缩在复杂推理场景中往往效果不佳,因为中间细节一旦不可逆地丢失,可能会导致逻辑瓶颈。为了解决这一问题,我们进一步将框架演化为 LightThinker++,引入了显式自适应记忆管理(Explicit Adaptive Memory Management)。这一范式转向了行为层级的管理,通过引入显式记忆原语(memory primitives),并结合专门设计的轨迹合成流水线来训练具有目的性的记忆调度能力。大量实验从三个维度验证了该框架的通用性: 1. LightThinker 在仅带来极小精度损失的情况下,将峰值 token 使用量降低了 70%,推理时间减少了 26%。 2. 在标准推理任务中,LightThinker++ 在相同上下文预算下实现最高性能时,将峰值 token 使用量减少了 69.9%,同时准确率提升了 2.42%。 3. 更值得注意的是,在长时程智能体任务(long-horizon agentic tasks)中,其在超过 80 轮交互后依然能够维持稳定的资源占用(降低 60%–70%),并在不同复杂场景下平均带来了 14.8% 的性能提升。 总体而言,我们的工作为在极低开销下维持 LLM 长时程深度推理提供了一条可扩展的发展方向。 原文链接:https://arxiv.org/abs/2604.03679
【第598期】通过原子技能强化学习扩展编程智能体Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Scaling Coding Agents via Atomic Skills Summary 当前的 LLM 编码智能体主要基于复合型基准任务(例如 Bug 修复)进行训练,这往往会导致针对特定任务的过拟合以及泛化能力受限。为了解决这一问题,我们提出了一种新的扩展范式,将重点从任务级优化转向原子技能掌握。我们首先形式化定义了五种基础原子技能:代码定位、代码编辑、单元测试生成、问题复现以及代码审查,这些技能构成了复杂软件工程任务的基向量。相比复合型编码任务,这些原子技能具有更强的泛化性与可组合性。随后,我们通过在原子技能上进行联合强化学习(joint RL)来扩展编码智能体。通过这种方式,各项原子技能能够在不存在负面干扰或相互权衡的情况下持续提升。值得注意的是,我们观察到,这些原子技能的提升能够很好地泛化到其他未见过的复合型编码任务中,例如 Bug 修复、代码重构、机器学习工程以及代码安全等。这一发现推动了一种新的编码智能体扩展范式:基于原子技能进行训练。大量实验表明了我们所提出范式的有效性。特别地,我们的联合强化学习方法在 5 项原子技能和 5 项复合任务上的平均性能提升达到了 18.7%。 原文链接:https://arxiv.org/abs/2604.05013
【第597期】单智能体与多智能体大模型推理效能对比研究Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets Summary 近期研究报告称,多智能体大语言模型系统(multi-agent LLM systems,MAS)表现出很强的性能,但这些性能提升往往受到“测试时计算量增加”这一因素的干扰。当计算资源被归一化后,单智能体系统(single-agent systems,SAS)实际上能够达到甚至超过 MAS 的表现;然而,这种比较背后的理论基础和评测方法仍不清晰。 我们提出了一个基于信息论的论证,其核心建立在“数据处理不等式”(Data Processing Inequality)之上。该论证表明:在推理 token 预算固定、且上下文利用率完美的情况下,单智能体系统在信息利用效率上更优。 这一观点进一步预测:当单个智能体的上下文利用能力下降,或者允许消耗更多计算资源时,多智能体系统才会变得更具竞争力。 我们在一个受控实验研究中验证了这些预测。实验覆盖三个模型家族: * Qwen3 * DeepSeek-R1-Distill-Llama * Gemini 2.5 并在统一预算条件下,对单智能体系统与多种多智能体架构进行了比较。 实验结果表明:在推理 token 数量保持一致时,SAS 在多跳推理(multi-hop reasoning)任务上始终能够匹配甚至超过 MAS 的表现。 除了总体性能分析之外,我们还对系统行为和评测方法进行了详细诊断。我们发现: * 基于 API 的预算控制存在显著伪差(artifacts),尤其是在 Gemini 2.5 中; * 标准基准测试本身也存在问题; 这两类因素都会夸大 MAS 看似带来的性能收益。 总体而言,我们的结果表明:对于多跳推理任务,许多已报告的多智能体系统优势,更可能是由于未被充分统计的计算量和上下文效应,而不是源于其架构本身的天然优势。 研究同时强调,在智能体系统(agentic systems)中,理解并明确控制“计算资源、上下文利用与协同机制”之间的权衡关系至关重要。 原文链接:https://arxiv.org/abs/2604.02460
【第596期】MIA:基于存储智能的深度研究智能体框架Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。 如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。 合作邮箱:zhiwudazhanjiangshi#gmail.com 今天的主题是: Memory Intelligence Agent Summary 深度研究智能体(Deep Research Agents,DRAs)将大语言模型(LLM)的推理能力与外部工具结合起来。记忆系统使 DRAs 能够利用历史经验,而这对于高效推理和自主进化至关重要。现有方法通常依赖从记忆中检索相似的历史轨迹来辅助推理,但存在两个关键问题:记忆演化效率低,以及存储与检索成本不断增加。 为了解决这些问题,我们提出了一种新的 Memory Intelligence Agent(MIA)框架,其采用 Manager–Planner–Executor(管理者–规划者–执行者)架构。 * Memory Manager 是一个非参数化记忆系统,可以存储经过压缩的历史搜索轨迹。 * Planner 是一个参数化记忆智能体,能够针对问题生成搜索计划。 * Executor 则是另一个智能体,在搜索计划的指导下执行信息搜索与分析。 为了构建 MIA 框架,我们首先采用一种交替式强化学习(alternating reinforcement learning)范式,以增强 Planner 与 Executor 之间的协同能力。 此外,我们使 Planner 能够在测试时学习(test-time learning)过程中持续进化:模型更新会与推理同步在线进行,而不会中断推理过程。 同时,我们还建立了参数化记忆与非参数化记忆之间的双向转换循环,从而实现高效的记忆演化。 最后,我们引入了反思(reflection)机制以及无监督判断(unsupervised judgment)机制,以提升模型在开放世界环境中的推理能力和自我进化能力。 在 11 个基准测试上的大量实验结果表明,MIA 相较现有方法具有明显优势。 原文链接:https://arxiv.org/abs/2604.04503