百度开源王炸OCR模型 几十页PDF一次性识别
OCR 领域迎来了一次重要的技术革新。6 月 23 日,百度正式开源了全新的 Unlimited-OCR(无限 OCR)模型。它的核心突破在于实现了 “一次前向传播,即可连续解析数十页长文档” ,真正做到了“读懂整份文档”。
核心突破:告别“逐页拼接”,实现“一次性长程解析”
传统 OCR 处理长文档,通常采用“逐页扫描、再拼接”的笨办法。这种方式不仅割裂了文档的连贯性,而且每次解析都像“重新开始”,效率低下。
Unlimited-OCR 的革命性在于,它模仿了人类抄书的工作方式:始终能看到完整的原文,但只记住最近写下的内容,实现“软遗忘”。这使得模型能以单次前向传播完成数十页文档的解析,保持了阅读的连贯性,极大地提升了效率。
技术原理:恒定 KV Cache 与 R-SWA 机制
其技术核心,是解决了传统大模型解码器的一个根本瓶颈:KV Cache 的线性增长问题。
传统解码器的问题:处理长文档时,模型必须记住所有已生成的内容(KV Cache),这会导致显存占用和计算开销随文档长度无限增长,最终让模型“卡住”。
Unlimited-OCR 的解决方案:它提出了 “参考滑动窗口注意力”(Reference Sliding Window Attention, R-SWA) 机制。
恒定 KV Cache:它将 KV Cache 设计成一个固定长度的队列。每生成一个新词,最旧的信息就会被移除,新信息加入,使 KV Cache 规模始终保持恒定,不随文档长度增长。
聪明的“遗忘”策略:这个机制分为两部分:
1. 参考段 (Reference):始终保留完整的视觉信息(如 PDF 页面),确保模型“看”得全。
2. 滑动窗口 (Decode Window):只保留最近生成的 128 个 token 作为“短期记忆”。
R-SWA 让模型在保持“长期视野”的同时,只维护极小的“工作记忆”,从而从根本上解决了长文档处理的算力瓶颈。
性能表现:刷新 SOTA,又快又准
Unlimited-OCR 在权威的 OmniDocBench 基准测试中刷新了纪录,证明了其“又快又准”的实力。
准确性 SOTA:
在 OmniDocBench v1.6 上,综合得分达到 93.92%,位列第一。
相比 DeepSeek-OCR,综合得分提升超过 6 个百分点。
在文本、公式、表格等复杂内容的识别上均有显著提升。
处理速度优势:
在长文档场景下,推理速度比 DeepSeek-OCR 快 12.7%。
输出长度达 6000 tokens 时,速度优势可扩大至 35%。
处理 20 页文档的编辑距离为 0.057,即使是 40 页以上的文档,也能保持可用水平。
模型规格与开源
模型架构:基于 DeepSeek OCR 的编码器,采用 混合专家架构 (MoE),总参数量 30 亿 (3B),实际激活仅 5 亿 (500M)。这意味着它能力强大,但运行时非常高效。
完全开源:代码和模型权重已开源。
GitHub:http://github.com/bAIdu/Unlimited-OCR
Hugging Face:https://huggingface.co/baidu/Unlimited-OCR
技术报告:https://arxiv.org/pdf/2606.23050
总的来说,百度 Unlimited-OCR 通过创新的 R-SWA 注意力机制,解决了端到端 OCR 模型处理长文档的痛点,实现了高效、高质量的长文档一次性解析,为文档智能化处理带来了新的可能。
