一、 核心思想:用视觉 Token 替代文本 Token
传统的大语言模型(LLM)通过文本 Tokenizer 将文字转换为数字序列,但这种方式存在两大瓶颈:
- 计算瓶颈:自注意力机制的计算复杂度为 $O(n^2)$,长文本会导致 Token 数量 $n$ 剧增,计算成本极高。
- 信息丢失:文本 Tokenization 会完全破坏原始的版式、表格、代码缩进等结构化信息。
DeepSeek-OCR 提出了一种颠覆性的解决方案:
- 文本图像化:将长文本渲染成一张或多张图片。
- 视觉压缩:使用一个高效的视觉编码器(ViT)分析图片,将其“摘要”成一小组固定数量、信息密度极高的“视觉 Token”。
- LLM 处理:将这些被高度压缩的视觉 Token 输入给 LLM 进行理解。
二、 关键问题解析 (Q&A)
Q1: 为什么视觉 Token 会远少于文本 Token?
- 本质区别:文本 Tokenizer 是“忠实编码器”,像查字典一样,文本越长,Token 越多。而 ViT 视觉编码器是“智能摘要器”,它分析整个页面的语义和结构,并生成一份高度浓缩的特征摘要。
- 工作原理:ViT 并非编码每个像素,而是通过分析图像块(Patches)及其关系,提取出关键的、高维度的特征。它主动丢弃了如背景、字体细节等冗余信息,保留了核心语义和结构。
Q2: 压缩成视觉 Token 会丢失信息,导致上下文能力变弱吗?
- 不会变弱,反而增强。这个过程是“信息置换”,而非简单的有损压缩。
- 丢失的信息:主要是对理解无关紧要的底层冗余信息(如像素细节)。
- 保留和增强的信息:除了核心语义,更重要的是额外捕获了结构化信息(表格、标题、代码缩进等),这是传统方法完全丢失的。
- 能力升维:上下文能力从线性的“文本记忆力”升级为结构化的“版面理解力”,在处理复杂文档(如财报、论文)时优势巨大。
Q3: 为何不让 LLM 自己对文本进行总结,以达到类似效果?
让 LLM 进行“递归摘要”是一种可行但效果远逊于 DeepSeek-OCR 的策略。
| 对比维度 | LLM 递归摘要 | DeepSeek-OCR |
|---|---|---|
| 处理模式 | 串行:处理一段,总结一段,效率低。 | 并行:一次性压缩所有页面,效率高。 |
| 计算成本 | 极高:每次总结前都需处理原始长文本。 | 极低:LLM 只需处理压缩后的短序列。 |
| 信息损失 | 滚雪球效应:摘要的摘要导致开头信息严重丢失。 | 均匀可控:每一页都独立高质量摘要,信息平等。 |
| 结构信息 | 永久丢失:输入的是纯文本,无法还原版式。 | 完美保留:输入的是图片,结构信息完整。 |
结论:DeepSeek-OCR 是“源头治理”,从根本上改变了问题。而 LLM 自行总结是“先污染,后治理”,是在旧框架下的低效修补。
三、 总结
DeepSeek-OCR 的核心价值在于,它通过一个专用的视觉“摘要”模型,在信息进入 LLM 之前就完成了高效的压缩和特征提取。这不仅数量级地降低了长上下文的处理成本,还创造性地保留并利用了文本的版式和结构信息,为大语言模型处理超长、复杂的文档开辟了一条全新的、更高效的道路。



































































































































