DeepSeek-OCR与“上下文光学压缩”:如何用10倍压缩率突破LLM长文本处理的效率瓶颈早点聊

DeepSeek-OCR与“上下文光学压缩”:如何用10倍压缩率突破LLM长文本处理的效率瓶颈

22分钟 ·
播放数5
·
评论数0

本期主题:深度探索视觉-文本压缩的极限:DeepSeek-OCR 如何利用视觉模态解决 LLM 的长上下文挑战

【核心概念】

本期节目将聚焦 DeepSeek-OCR,这是一个旨在验证“上下文光学压缩”可行性的视觉-语言模型 (VLM)。面对当前大型语言模型 (LLMs) 处理长文本内容时,计算量随序列长度呈二次方增长的重大挑战,DeepSeek-OCR 提出了一种潜在解决方案:利用视觉模态作为高效的文本信息压缩介质

【主要看点】

  1. 高效压缩与高精度解码:DeepSeek-OCR 提供了视觉-文本 token 压缩比的全面定量分析。实验表明,当文本 token 数量在视觉 token 数量的 $10 \times$ 以内(即压缩比 $< 10 \times$)时,模型可以实现 $97%$ 的 OCR 解码精度。即使在高达 $20 \times$ 的压缩比下,OCR 准确率仍能保持在 $60%$ 左右。
  2. 创新架构:DeepSeek-OCR 由核心引擎 DeepEncoderDeepSeek3B-MoE 解码器组成。DeepEncoder 是一种新型架构,它串联了窗口注意力组件和全局注意力组件,并通过 $16 \times$ 卷积压缩器进行连接,从而在高分辨率输入下保持低激活内存并实现有效 token 压缩。
  3. 行业领先性能:在 OmniDocBench 上,DeepSeek-OCR 在端到端模型中实现了最少视觉 token 的最先进性能。它仅使用 100 个视觉 token 就超越了 GOT-OCR2.0 (256 个 token/页),并且在使用少于 800 个视觉 token 的情况下,性能优于 MinerU2.0。
  4. 实用价值与未来方向:DeepSeek-OCR 在实际生产中具有高价值,能够以每天 20 万+ 页的规模为 LLMs/VLMs 生成训练数据(使用一块 A100-40G GPU)。此外,上下文光学压缩的方法为解决 LLMs 中的长上下文挑战提供了有希望的方向,并可能为 LLMs 中的记忆遗忘机制研究提供思路。
  5. 多功能性:该模型支持多分辨率输入模式(例如 Tiny、Small、Base、Large、Gundam 模式),并具备深度解析图表、化学公式、简单几何图形以及自然图像的能力。

【更多信息】

DeepSeek-OCR 的代码和模型权重已公开,请访问 github.com

(本播客由 AI 生成)