DeepSeek-OCR与“上下文光学压缩”：如何用10倍压缩率突破LLM长文本处理的效率瓶颈

本期主题：深度探索视觉-文本压缩的极限：DeepSeek-OCR 如何利用视觉模态解决 LLM 的长上下文挑战

【核心概念】

本期节目将聚焦 DeepSeek-OCR，这是一个旨在验证“上下文光学压缩”可行性的视觉-语言模型 (VLM)。面对当前大型语言模型 (LLMs) 处理长文本内容时，计算量随序列长度呈二次方增长的重大挑战，DeepSeek-OCR 提出了一种潜在解决方案：利用视觉模态作为高效的文本信息压缩介质。

【主要看点】

高效压缩与高精度解码：DeepSeek-OCR 提供了视觉-文本 token 压缩比的全面定量分析。实验表明，当文本 token 数量在视觉 token 数量的 $10 \times$ 以内（即压缩比 $< 10 \times$）时，模型可以实现 $97%$ 的 OCR 解码精度。即使在高达 $20 \times$ 的压缩比下，OCR 准确率仍能保持在 $60%$ 左右。

创新架构：DeepSeek-OCR 由核心引擎 DeepEncoder 和 DeepSeek3B-MoE 解码器组成。DeepEncoder 是一种新型架构，它串联了窗口注意力组件和全局注意力组件，并通过 $16 \times$ 卷积压缩器进行连接，从而在高分辨率输入下保持低激活内存并实现有效 token 压缩。

行业领先性能：在 OmniDocBench 上，DeepSeek-OCR 在端到端模型中实现了最少视觉 token 的最先进性能。它仅使用 100 个视觉 token 就超越了 GOT-OCR2.0 (256 个 token/页)，并且在使用少于 800 个视觉 token 的情况下，性能优于 MinerU2.0。

实用价值与未来方向：DeepSeek-OCR 在实际生产中具有高价值，能够以每天 20 万+ 页的规模为 LLMs/VLMs 生成训练数据（使用一块 A100-40G GPU）。此外，上下文光学压缩的方法为解决 LLMs 中的长上下文挑战提供了有希望的方向，并可能为 LLMs 中的记忆遗忘机制研究提供思路。

多功能性：该模型支持多分辨率输入模式（例如 Tiny、Small、Base、Large、Gundam 模式），并具备深度解析图表、化学公式、简单几何图形以及自然图像的能力。

【更多信息】

DeepSeek-OCR 的代码和模型权重已公开，请访问 github.com。

（本播客由 AI 生成）