【第560期】Doc-to-LoRA:学习即时将上下文内化为模型参数Seventy3

【第560期】Doc-to-LoRA:学习即时将上下文内化为模型参数

23分钟 ·
播放数5
·
评论数0

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。

如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com

今天的主题是:

Doc-to-LoRA: Learning to Instantly Internalize Contexts

Summary

长输入序列是大语言模型(LLM)进行语境学习(In-context Learning)、文档理解和多步推理的核心。然而,Transformer 架构中注意力机制的平方级计算代价使得推理过程极其耗费内存且速度缓慢。虽然上下文蒸馏(Context Distillation, CD)可以将信息转移到模型参数中,但由于训练成本和延迟过高,针对每个提示词(Prompt)进行蒸馏在实际应用中并不现实。

为了解决这些局限性,我们提出了 Doc-to-LoRA (D2L):一种轻量级的超网络(Hypernetwork),它通过元学习(Meta-learning)实现在单次前向传播中进行近似上下文蒸馏。

给定一个未见过的提示词,D2L 会为目标 LLM 生成一个 LoRA 适配器,使得后续查询无需重新消耗原始上下文即可获得答案。这降低了目标 LLM 推理时的延迟和 KV 缓存(KV-cache)的内存消耗。

在长上下文“大海捞针”(Needle-in-a-haystack)任务中,D2L 成功学会了将上下文映射到存储“针”信息的适配器中,在序列长度超过目标 LLM 原生上下文窗口 4 倍以上的情况下,实现了近乎完美的零样本(Zero-shot)准确率。

在计算资源有限的真实问答数据集上,D2L 的表现优于标准上下文蒸馏,同时显著降低了峰值内存消耗和更新延迟。我们预见 D2L 能够促进 LLM 的快速自适应,为频繁的知识更新和个性化聊天行为开启新的可能性。

原文链接:arxiv.org