Vol.3：LLM提示词缓存：速度提升、成本降低10倍的秘密

16分钟 ·5个月前

2

·

0

我们用“写长篇小说”或者“查阅会议纪要”来做一个通俗的对比，这样即使不懂计算机技术的用户，也能理解提示词缓存（Prompt Caching）的奥秘。

想象你在雇佣一位极其认真的助理写小说：

1. 没有“提示词缓存”的情况（传统推理）：

假设你已经写了 10,000 字的背景设定，现在想让助理写下第 10,001 个字。

重复劳动： 助理每次动笔前，都必须从第一页开始，逐字逐句地重新阅读并分析那 10,000 字。

效率低下： 为了写出一个新字，助理要把之前做过的所有逻辑推演、人物关系分析全部重新算一遍。

成本高昂： 因为助理每次都要花大量时间重读，你必须按他“阅读的总字数”付费。每增加一个字，你的账单都会因为重复阅读而变得异常昂贵。

2. 使用“提示词缓存”的情况：

现在，这位助理学聪明了，他准备了一份**“超级读书笔记”**（这就是所谓的 KV 缓存）。

只看新信息： 当你让他写第 10,001 个字时，他不再去重读那 10,000 字。他直接翻开那份已经做好的笔记，笔记里记录了之前所有情节的精华和逻辑关系。

增量处理： 他只需要分析你刚给出的那个新提示，然后把它与笔记内容对上，就能立刻写出下一个字。

省时省钱： 助理的工作量大幅减少，你不需要为他重复阅读旧内容付全额费用。这就是为什么 API 提供商能给你提供高达 10 倍的折扣，且响应速度能快上 85% 的原因。

在模型内部，处理文字其实是在做复杂的数学矩阵计算。

缓存了什么： 它缓存的不是最终的答案，而是模型对你输入内容的**“理解结果”**（即 K 矩阵和 V 矩阵）。

为什么有效： 因为对于同一个提示词，无论你问多少次，模型对这部分内容的“基础理解”是不变的。把这些计算好的中间结果存起来，下次直接用，就省去了昂贵的重复数学推演过程。

通俗来说：提示词缓存就像是给 AI 装了一个**“瞬时记忆扩容插件”**。它让 AI 不再是个“鱼的记忆”——每次说话前都要从头回忆一遍人生，而是能带着之前的“思想笔记”直接开始新的对话。

想让大模型推理费用暴降 10 倍？秘密就在提示词缓存（KV Caching）。

它通过在底层缓存 K 与 V 矩阵，彻底消除了对长文本的冗余数学计算。该技术不仅能让延迟缩减 85%，且不受随机性参数影响，是开发者平衡高性能与极致成本的终极利器！

如果想要更精细的了解带图文版信息，可观看原文：ngrok.com

在小宇宙打开