【第627期】内化多智能体辩论：潜空间推理与控制

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。
合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Summary

多智能体辩论（Multi-agent debate）已被证明能够提高大语言模型（LLM）的推理能力。然而，这种方法属于算力密集型，在回答问题之前需要生成冗长的对话记录（Transcripts）。

为了解决这一低效问题，我们开发了一个将多智能体辩论蒸馏（Distills）到单个 LLM 中的框架。该框架通过一个两阶段的微调管道，将“辩论结构学习”与通过动态奖励调度（Dynamic reward scheduling）和长度裁剪（Length clipping）实现的“内化”（Internalization）相结合。在多个模型和基准测试中，我们内化后的模型仅使用减少高达 93% 的 Token 量，就达到或超过了显式多智能体辩论的性能。

随后，我们通过激活转向（Activation steering）研究了这种能力的底层机制机理。研究发现，内化过程创建了智能体特异性子空间（Agent-specific subspaces）：即在激活空间中，存在着对应不同智能体视角的、具备可解释性的方向。

我们进一步展示了一个实际应用：通过内化辩论将恶意智能体植入到 LLM 中，然后应用负向转向（Negative steering）来抑制它们。结果表明，相比于直接对基座模型进行转向，蒸馏使得有害行为更容易被定位和控制，且对通用性能的损害更小。

我们的发现为理解蒸馏模型中的多智能体能力提供了一个全新视角，并为控制内化推理行为提供了实用的指南。

原文链接：arxiv.org