Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate
Summary
多智能体辩论(Multi-agent debate)已被证明能够提高大语言模型(LLM)的推理能力。然而,这种方法属于算力密集型,在回答问题之前需要生成冗长的对话记录(Transcripts)。
为了解决这一低效问题,我们开发了一个将多智能体辩论蒸馏(Distills)到单个 LLM 中的框架。该框架通过一个两阶段的微调管道,将“辩论结构学习”与通过动态奖励调度(Dynamic reward scheduling)和长度裁剪(Length clipping)实现的“内化”(Internalization)相结合。在多个模型和基准测试中,我们内化后的模型仅使用减少高达 93% 的 Token 量,就达到或超过了显式多智能体辩论的性能。
随后,我们通过激活转向(Activation steering)研究了这种能力的底层机制机理。研究发现,内化过程创建了智能体特异性子空间(Agent-specific subspaces):即在激活空间中,存在着对应不同智能体视角的、具备可解释性的方向。
我们进一步展示了一个实际应用:通过内化辩论将恶意智能体植入到 LLM 中,然后应用负向转向(Negative steering)来抑制它们。结果表明,相比于直接对基座模型进行转向,蒸馏使得有害行为更容易被定位和控制,且对通用性能的损害更小。
我们的发现为理解蒸馏模型中的多智能体能力提供了一个全新视角,并为控制内化推理行为提供了实用的指南。
原文链接:arxiv.org

