一、 核心思想:用视觉 Token 替代文本 Token

传统的大语言模型(LLM)通过文本 Tokenizer 将文字转换为数字序列,但这种方式存在两大瓶颈:

  1. 计算瓶颈:自注意力机制的计算复杂度为 $O(n^2)$,长文本会导致 Token 数量 $n$ 剧增,计算成本极高。
  2. 信息丢失:文本 Tokenization 会完全破坏原始的版式、表格、代码缩进等结构化信息

DeepSeek-OCR 提出了一种颠覆性的解决方案:

  1. 文本图像化:将长文本渲染成一张或多张图片。
  2. 视觉压缩:使用一个高效的视觉编码器(ViT)分析图片,将其“摘要”成一小组固定数量、信息密度极高的“视觉 Token”。
  3. LLM 处理:将这些被高度压缩的视觉 Token 输入给 LLM 进行理解。

二、 关键问题解析 (Q&A)

Q1: 为什么视觉 Token 会远少于文本 Token?

  • 本质区别:文本 Tokenizer 是“忠实编码器”,像查字典一样,文本越长,Token 越多。而 ViT 视觉编码器是“智能摘要器”,它分析整个页面的语义和结构,并生成一份高度浓缩的特征摘要。
  • 工作原理:ViT 并非编码每个像素,而是通过分析图像块(Patches)及其关系,提取出关键的、高维度的特征。它主动丢弃了如背景、字体细节等冗余信息,保留了核心语义和结构。

Q2: 压缩成视觉 Token 会丢失信息,导致上下文能力变弱吗?

  • 不会变弱,反而增强。这个过程是“信息置换”,而非简单的有损压缩。
  • 丢失的信息:主要是对理解无关紧要的底层冗余信息(如像素细节)。
  • 保留和增强的信息:除了核心语义,更重要的是额外捕获了结构化信息(表格、标题、代码缩进等),这是传统方法完全丢失的。
  • 能力升维:上下文能力从线性的“文本记忆力”升级为结构化的“版面理解力”,在处理复杂文档(如财报、论文)时优势巨大。

Q3: 为何不让 LLM 自己对文本进行总结,以达到类似效果?

让 LLM 进行“递归摘要”是一种可行但效果远逊于 DeepSeek-OCR 的策略。

对比维度LLM 递归摘要DeepSeek-OCR
处理模式串行:处理一段,总结一段,效率低。并行:一次性压缩所有页面,效率高。
计算成本极高:每次总结前都需处理原始长文本。极低:LLM 只需处理压缩后的短序列。
信息损失滚雪球效应:摘要的摘要导致开头信息严重丢失。均匀可控:每一页都独立高质量摘要,信息平等。
结构信息永久丢失:输入的是纯文本,无法还原版式。完美保留:输入的是图片,结构信息完整。

结论:DeepSeek-OCR 是“源头治理”,从根本上改变了问题。而 LLM 自行总结是“先污染,后治理”,是在旧框架下的低效修补。

三、 总结

DeepSeek-OCR 的核心价值在于,它通过一个专用的视觉“摘要”模型,在信息进入 LLM 之前就完成了高效的压缩和特征提取。这不仅数量级地降低了长上下文的处理成本,还创造性地保留并利用了文本的版式和结构信息,为大语言模型处理超长、复杂的文档开辟了一条全新的、更高效的道路。