【开源初探】基于Qwen2.5VL的OCRFlux
源码地址:https://github.com/chatdoc-com/OCRFlux
在线体验地址:https://ocrflux.pdfparser.io/#/
开源模型地址:https://huggingface.co/ChatDOC/OCRFlux-3B
概述
现有的文档解析遇到的主要问题:
- 现有的方法在处理具有复杂布局和复杂表格的页面时存在困难。特别是对于那些具有像跨行或跨列单元格等复杂结构的表格,解析出的输出通常不完整且错位。
- PDF文档通常以分页格式呈现,这常常导致表格或段落跨两页断开。然而,目前没有任何工具能够处理跨文档页面的段落和表格合并。它们都是逐页处理,在拼接各页结果时不考虑逻辑连贯性,从而导致表格和段落出现错误或碎片化。
- 许多最先进的工具依赖于参数超过7B的模型。模型参数过多限制了它们的高效推理和简化部署。
OCRFlux是一个基于多模态大语言模型的工具包,可以将PDF和图像转换为清晰、可读的纯Markdown文本。它旨在将当前的技术水平提升到一个显著更高的层次。
特点与样例
特点
- 在多栏、包含图片、插图等布局情况下