
近年来,大语言模型 (LLM) 在聊天机器人、代码生成器和搜索引擎等多种应用中得到广泛采用,其中不乏 ChatGPT、GitHub Copilot 和谷歌 Gemini 等知名案例。所谓“推理”,是指使用经过训练的 LLM 生成响应或预测的过程。然而,随着应用的深入,特别是像思维链 (chain-of-thought) 推理和人工智能代理这类需要频繁调用模型的先进应用,LLM 推理的计算需求和成本日益增长。这种需求的激增使得高效推理变得至关重要。
LLM 推理引擎应运而生,它们是专门设计的软件,旨在优化这一过程,有效管理资源并应用各种加速技术。值得注意的是,通用的深度学习框架(如 PyTorch、TensorFlow)虽然功能强大,但通常缺乏针对 LLM 的特定优化,导致在运行大型模型时性能较低且资源消耗更高。
这种对计算资源和效率的极致追求,凸显了一个核心挑战:许多 LLM 驱动服务的经济可行性直接取决于其推理堆栈的效率。LLM 的广泛应用,尤其是在需要多次模型调用以完成单个用户查询的复杂推理任务(如思维链或 AI 代理)中,显著增加了计算负载。这种增加的负载直接转化为运营成本(计算资源、能源消耗)并影响用户体验(主要体现在延迟方面)。因此,低效的推理如同一种“创新税”,使得部署复杂 AI 功能的成本更高、速度更慢。推理引擎正是降低这项“税负”的关键工具,其效率的提升甚至可以解锁那些因成本过高而一度遥不可及的新应用。
英文论文原文: arxiv.org

