主页 > 快资讯 > 正文

百度开源全新OCR模型 PaddleOCR-VL-1.5,性能超越DeepSeek-OCR2

2026-05-10 22:27来源:Techweb编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  1月30日消息,百度在OCR领域再发力。

  29日,百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。

  该模型以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能第一成绩,整体精度达到94.5%,不仅超过Gemini-3-Pro、Qwen3-VL-235B-A22B、GPT-5.2等模型,也超过了1月27日DeepSeek刚刚发布和开源的DeepSeek-OCR2模型。

  目前,PaddleOCR-VL-1.5 已全面开源,开发者可通过GitHub、Hugging Face获取,并在 PaddleOCR 官网进行在线体验或通过百度智能云千帆平台调用API接口。

  在线使用/API:https://www.paddleocr.com

  开源项目地址:https://github.com/PaddlePaddle/PaddleOCR

  模型下载地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

  PaddleOCR-VL-1.5全球首次实现“异形框定位”

  PaddleOCR-VL-1.5是2025年10月16日百度首次发布并开源的PaddleOCR-VL模型的升级版。

相比于上代,PaddleOCR-VL-1.5-0.9B继承了轻量级架构,NaViT视觉编码器 + ERNIE-4.5-0.3B语言模型。

  在功能层面,PaddleOCR-VL-1.5新增多项能力,包括:

  进一步集成印章识别、文本检测与识别等任务能力;

  针对特殊场景与多语种识别进行系统优化,在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升;

  新增对藏语、孟加拉语等语种的支持;

  模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。

  尤其值得注意的是,PaddleOCR-VL-1.5 全球首次实现OCR模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。

  该技术解决了传统OCR模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。

  PaddleOCR-VL-1.5性能超DeepSeek-OCR2

  技术文档内容显示,PaddleOCR-VL-1.5 基于文心大模型进行开发,在 OmniDocBench V1.5文档解析基准上实现了 94.5%的最新最先进(SOTA)准确率,在文本、公式、表格、阅读顺序所有子任务上均领先。

  表格来源:PaddleOCR-VL-1.5技术文档

  公式识别 (FormulaCDM):94.21%,大幅领先所有对比模型,显示出在复杂数学表达式解析上的巨大优势。

  表格识别 (TableTEDS):92.76%,同样是最高水平,表明其对表格结构的理解能力极强。

  文本与阅读顺序:文本识别 (TextEdit: 0.035) 和阅读顺序 (Reading OrderEdit: 0.042) 误差极低,仅为同类其他模型约一半,保持了顶级水准。

  PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性,在合同、财报等高复杂度业务场景中拥有更高可用性。

  1月27日DeepSeek刚刚发布和开源的DeepSeek-OCR 2模型,在OmniDocBench V1.5的综合得分是91.09%。这也意味着PaddleOCR-VL-1.5性能超过DeepSeek-OCR 2。

  表格来源:1月27日DeepSeek-OCR 2模型开源技术文档

  另外,为了严格评估模型对真实世界物理畸变的鲁棒性——包括扫描、倾斜、弯曲、屏幕翻拍和光照不均。百度飞桨团队提出了Real5-OmniDocBench评测基准。PaddleOCR-VL-1.5在该基准上取得92.05%的整体精度,同样达到SOTA,在五个子场景下均排名第一,显著优于包括Qwen3-VL-235B、Gemini-3 Pro在内的通用大模型。

  表格来源:PaddleOCR-VL-1.5技术文档

  另外,在硬件适配方面,PaddleOCR-VL-1.5模型在H800、A100、RTX 4090D等多种硬件上均具备的高效推理性能,验证了其广泛的部署适用性。PaddleOCR-VL-1.5具备优秀的工程化和部署友好性,能够灵活适配从数据中心到边缘设备的各种计算环境,为其大规模实际应用奠定了坚实的基础。

  
表格来源:PaddleOCR-VL-1.5技术文档

  整体来看,PaddleOCR-VL-1.5在标准文档解析任务上实现了新的SOTA精度,其核心突破在于对真实世界复杂物理畸变的卓越鲁棒性。通过架构创新、训练策略优化以及新增印章识别和文本定位能力,该模型成为一个轻量(0.9B)、高效、多功能的文档解析解决方案,能够为下游RAG系统和LLM应用提供高保真的知识输入,推动文档智能技术在复杂现实场景中的可靠部署。

  OCR技术发展经历了从最早的模板匹配到现在的端到端深度学习等多个重要发展阶段。近半年来,全球主流模型厂商密集布局 OCR 领域。Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型。1月27日,深度求索发布新一代 OCR 模型 DeepSeek-OCR-2,行业竞争持续加剧。

  而纵观中国OCR发展史,百度一直是这一领域的领航者和重要贡献者。此前,百度推出的开源工具库PaddleOCR,集成了最先进的检测和识别模型,推动了OCR的工业化应用。

  随着大模型加速进入金融、政务、制造等高复杂度业务流程,文档解析能力正从“能用”走向“稳定可规模化落地”。

  PaddleOCR-VL-1.5 在精度、复杂场景适应性与工程化能力上的系统突破,有望进一步降低产业应用门槛,推动 OCR 技术在真实生产环境中的深度落地。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还 黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还

“我们已经投进去的几千亿美元,只是道开胃菜。要把这套架构真正搭起来,后

快资讯2026-05-10

搭载HarmonyOS 6,华为MatePad Pro 12.2 英寸与华为Mat 搭载HarmonyOS 6,华为MatePad Pro 12.2 英寸与华为Mat

2026年3月23日,在华为春季全场景新品发布会上,华为MatePad Pro 12.2 英寸与华为

快资讯2026-05-10

零跑首款MPV车型D99亮相:定位30万元级旗舰产品 零跑首款MPV车型D99亮相:定位30万元级旗舰产品

12月28日消息,在今日举行的零跑汽车十周年发布会上,旗下首款MPV车型零跑D

快资讯2026-05-10

TechWeb微晚报:苹果全球活跃设备已超25亿,Spac TechWeb微晚报:苹果全球活跃设备已超25亿,Spac

要闻一览: 苹果全球活跃设备已超过25亿 2026支付宝五福活动新增“健康福”

快资讯2026-05-10

丰田安全标准+Momenta智驾大脑 2026款铂智3X辅助驾 丰田安全标准+Momenta智驾大脑 2026款铂智3X辅助驾

5月8日 ,广汽丰田2026款铂智3X正怯上市。新车共推出3种续航7款配置 ,全系增配

快资讯2026-05-10

黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还 黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还

“我们已经投进去的几千亿美元,只是道开胃菜。要把这套架构真正搭起来,后

快资讯2026-05-10

搭载HarmonyOS 6,华为MatePad Pro 12.2 英寸与华为Mat 搭载HarmonyOS 6,华为MatePad Pro 12.2 英寸与华为Mat

2026年3月23日,在华为春季全场景新品发布会上,华为MatePad Pro 12.2 英寸与华为

快资讯2026-05-10

零跑首款MPV车型D99亮相:定位30万元级旗舰产品 零跑首款MPV车型D99亮相:定位30万元级旗舰产品

12月28日消息,在今日举行的零跑汽车十周年发布会上,旗下首款MPV车型零跑D

快资讯2026-05-10

追觅CEO俞浩:科沃斯大量购买水军,恶心 追觅CEO俞浩:科沃斯大量购买水军,恶心

1月30日消息,追觅科技创始人兼CEO俞浩今日连续发布多条微博称:“科沃斯大量

快资讯2026-05-10

黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还 黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还

“我们已经投进去的几千亿美元,只是道开胃菜。要把这套架构真正搭起来,后

快资讯2026-05-10