PaddleOCR-VL 的核心组件是
PaddleOCR-VL-0.9B,它创新性地将 NaViT 风格的动态分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合,兼具结构理解力与资源效率。它不仅能精准解析多栏报纸、嵌套表格、数学公式,还能智能还原文档阅读顺序,在真实复杂场景下展现出了近乎人类级的理解能力。支持 109 种语言的它,堪称当前最灵活、最强大的文档解析模型之一。
PaddleOCR-VL 的核心组件是
PaddleOCR-VL-0.9B,它创新性地将 NaViT 风格的动态分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合,兼具结构理解力与资源效率。它不仅能精准解析多栏报纸、嵌套表格、数学公式,还能智能还原文档阅读顺序,在真实复杂场景下展现出了近乎人类级的理解能力。支持 109 种语言的它,堪称当前最灵活、最强大的文档解析模型之一。