百度开源王炸OCR模型几十页PDF一次性识别-矩阵键Matrikey

OCR 领域迎来了一次重要的技术革新。6 月 23 日，百度正式开源了全新的 Unlimited-OCR(无限 OCR)模型。它的核心突破在于实现了 “一次前向传播，即可连续解析数十页长文档” ，真正做到了“读懂整份文档”。

核心突破：告别“逐页拼接”，实现“一次性长程解析”

传统 OCR 处理长文档，通常采用“逐页扫描、再拼接”的笨办法。这种方式不仅割裂了文档的连贯性，而且每次解析都像“重新开始”，效率低下。

Unlimited-OCR 的革命性在于，它模仿了人类抄书的工作方式：始终能看到完整的原文，但只记住最近写下的内容，实现“软遗忘”。这使得模型能以单次前向传播完成数十页文档的解析，保持了阅读的连贯性，极大地提升了效率。

技术原理：恒定 KV Cache 与 R-SWA 机制

其技术核心，是解决了传统大模型解码器的一个根本瓶颈：KV Cache 的线性增长问题。

传统解码器的问题：处理长文档时，模型必须记住所有已生成的内容(KV Cache)，这会导致显存占用和计算开销随文档长度无限增长，最终让模型“卡住”。

Unlimited-OCR 的解决方案：它提出了 “参考滑动窗口注意力”(Reference Sliding Window Attention, R-SWA) 机制。

恒定 KV Cache：它将 KV Cache 设计成一个固定长度的队列。每生成一个新词，最旧的信息就会被移除，新信息加入，使 KV Cache 规模始终保持恒定，不随文档长度增长。

聪明的“遗忘”策略：这个机制分为两部分:

1. 参考段 (Reference)：始终保留完整的视觉信息(如 PDF 页面)，确保模型“看”得全。

2. 滑动窗口 (Decode Window)：只保留最近生成的 128 个 token 作为“短期记忆”。

R-SWA 让模型在保持“长期视野”的同时，只维护极小的“工作记忆”，从而从根本上解决了长文档处理的算力瓶颈。

性能表现：刷新 SOTA，又快又准

Unlimited-OCR 在权威的 OmniDocBench 基准测试中刷新了纪录，证明了其“又快又准”的实力。

准确性 SOTA：

在 OmniDocBench v1.6 上，综合得分达到 93.92%，位列第一。

相比 DeepSeek-OCR，综合得分提升超过 6 个百分点。

在文本、公式、表格等复杂内容的识别上均有显著提升。

处理速度优势：

在长文档场景下，推理速度比 DeepSeek-OCR 快 12.7%。

输出长度达 6000 tokens 时，速度优势可扩大至 35%。

处理 20 页文档的编辑距离为 0.057，即使是 40 页以上的文档，也能保持可用水平。

模型规格与开源

模型架构：基于 DeepSeek OCR 的编码器，采用混合专家架构 (MoE)，总参数量 30 亿 (3B)，实际激活仅 5 亿 (500M)。这意味着它能力强大，但运行时非常高效。

完全开源：代码和模型权重已开源。

GitHub：http://github.com/bAIdu/Unlimited-OCR

Hugging Face：https://huggingface.co/baidu/Unlimited-OCR

技术报告：https://arxiv.org/pdf/2606.23050

总的来说，百度 Unlimited-OCR 通过创新的 R-SWA 注意力机制，解决了端到端 OCR 模型处理长文档的痛点，实现了高效、高质量的长文档一次性解析，为文档智能化处理带来了新的可能。

百度开源王炸OCR模型 几十页PDF一次性识别