您当前的位置:首页 > 电脑百科 > 程序开发 > 语言 > Python

使用Python和OCR进行文档解析的完整代码演示

时间:2022-07-19 13:40:10  来源:  作者:deephub

在本文中将使用Python/ target=_blank class=infotextkey>Python演示如何解析文档(如pdf)并提取文本,图形,表格等信息。

文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流行的解析策略是将文档转换为图像并使用计算机视觉进行识别。而文档图像分析(Document Image Analysis)是指从文档的图像的像素数据中获取信息的技术,在某些情况下,预期结果应该是什么样的没有明确的答案(文本、图像、图表、数字、表格、公式……)。

使用Python和OCR进行文档解析的完整代码演示

 

OCR (Optical Character Recognition,光学字符识别)是通过计算机视觉对图像中的文本进行检测和提取的过程。它是在第一次世界大战期间发明的,当时以色列科学家伊曼纽尔·戈德堡(Emanuel Goldberg)发明了一台能读取字符并将其转换为电报代码的机器。到了现在该领域已经达到了一个非常复杂的水平,混合图像处理、文本定位、字符分割和字符识别。基本上是一种针对文本的对象检测技术。

在本文中我将展示如何使用OCR进行文档解析。我将展示一些有用的Python代码,这些代码可以很容易地用于其他类似的情况(只需复制、粘贴、运行),并提供完整的源代码下载。

这里将以一家上市公司的PDF格式的财务报表为例

使用Python和OCR进行文档解析的完整代码演示

 

检测和提取该PDF中的 文本、图形和表格

环境设置

文档解析令人烦恼的部分是,有太多的工具用于不同类型的数据(文本、图形、表格),但没有一个能够完美地工作。下面是一些最流行方法和软件包:

  • 以文本方式处理文档:用PyPDF2提取文本,用Camelot或TabulaPy提取表,用PyMuPDF提取图形。
  • 将文档转换为图像(OCR):使用pdf2image进行转换,使用PyTesseract以及许多其他的库提取数据,或者只使用LayoutParser。

也许你会问:“为什么不直接处理PDF文件,而要把页面转换成图像呢?”你可以这么做。这种策略的主要缺点是编码问题:文档可以采用多种编码(即UTF-8、ASCII、Unicode),因此转换为文本可能会导致数据丢失。因此为了避免产生该问题,我将使用OCR,并用pdf2image将页面转换为图像,需要注意的是PDF渲染库Poppler是必需的。

# with pip 
pip install python-poppler 
# with conda 
conda install -c conda-forge poppler

你可以很容易地读取文件:

# READ AS IMAGE 
import pdf2imagedoc = pdf2image.convert_from_path("doc_Apple.pdf") 
len(doc) #<-- check num pages 
doc[0] #<-- visualize a page
使用Python和OCR进行文档解析的完整代码演示

 

跟我们的截图一模一样,如果想将页面图像保存在本地,可以使用以下代码:

# Save imgs 
import osfolder = "doc" 
if folder not in os.listdir(): 
os.makedirs(folder)p = 1 
for page in doc: 
image_name = "page_"+str(p)+".jpg" 
page.save(os.path.join(folder, image_name), "JPEG") 
p = p+1

最后,我们需要设置将要使用的CV引擎。LayoutParser似乎是第一个基于深度学习的OCR通用包。它使用了两个著名的模型来完成任务:

Detection: Facebook最先进的目标检测库(这里将使用第二个版本Detectron2)。

pip install layoutparser torchvision && pip install "git+https://Github.com/facebookresearch/detectron2.git@v0.5#egg=detectron2"

Tesseract:最著名的OCR系统,由惠普公司在1985年创建,目前由谷歌开发。

pip install "layoutparser[ocr]"

现在已经准备好开始OCR程序进行信息检测和提取了。

import layoutparser as lp 
import cv2 
import numpy as np 
import io 
import pandas as pd 
import matplotlib.pyplot as plt

检测

(目标)检测是在图片中找到信息片段,然后用矩形边框将其包围的过程。对于文档解析,这些信息是标题、文本、图形、表……

让我们来看一个复杂的页面,它包含了一些东西:

使用Python和OCR进行文档解析的完整代码演示

 

这个页面以一个标题开始,有一个文本块,然后是一个图和一个表,因此我们需要一个经过训练的模型来识别这些对象。幸运的是,Detectron能够完成这项任务,我们只需从这里选择一个模型,并在代码中指定它的路径。

使用Python和OCR进行文档解析的完整代码演示

 

我将要使用的模型只能检测4个对象(文本、标题、列表、表格、图形)。因此,如果你需要识别其他东西(如方程),你就必须使用其他模型。

## load pre-trAIned model 
model = lp.Detectron2LayoutModel( 
"lp://PubLa.NET/mask_rcnn_X_101_32x8d_FPN_3x/config", 
extra_config=["MODEL.ROI_HEADS.SCORE_THRESH_TEST", 0.8], 
label_map={0:"Text", 1:"Title", 2:"List", 3:"Table", 4:"Figure"}) 

## turn img into array 
i = 21 
img = np.asarray(doc[i]) 

## predict 
detected = model.detect(img) 

## plot 
lp.draw_box(img, detected, box_width=5, box_alpha=0.2, 
show_element_type=True)
使用Python和OCR进行文档解析的完整代码演示

 

结果包含每个检测到的布局的细节,例如边界框的坐标。 根据页面上显示的顺序对输出进行排序是很有用的:

## sort 
new_detected = detected.sort(key=lambda x: x.coordinates[1]) 
## assign ids 
detected = lp.Layout([block.set(id=idx) for idx,block in 
enumerate(new_detected)])## check 
for block in detected: 
print("---", str(block.id)+":", block.type, "---") 
print(block, end='nn')
使用Python和OCR进行文档解析的完整代码演示

 

完成OCR的下一步是正确提取检测到内容中的有用信息。

提取

我们已经对图像完成了分割,然后就需要使用另外一个模型处理分段的图像,并将提取的输出保存到字典中。

由于有不同类型的输出(文本,标题,图形,表格),所以这里准备了一个函数用来显示结果。

''' 
{'0-Title': '...', 
'1-Text': '...', 
'2-Figure': array([[ [0,0,0], ...]]), 
'3-Table': pd.DataFrame, 
} 
''' 
def parse_doc(dic): 
for k,v in dic.items(): 
if "Title" in k: 
print('x1b[1;31m'+ v +'x1b[0m') 
elif "Figure" in k: 
plt.figure(figsize=(10,5)) 
plt.imshow(v) 
plt.show() 
else: 
print(v) 
print(" ")

首先看看文字:

# load model 
model = lp.TesseractAgent(languages='eng') 
dic_predicted = {} 
for block in [block for block in detected if block.type in ["Title","Text"]]: 
## segmentation 
segmented = block.pad(left=15, right=15, top=5, 
bottom=5).crop_image(img) 
## extraction 
extracted = model.detect(segmented) 
## save 
dic_predicted[str(block.id)+"-"+block.type] = 
extracted.replace('n',' ').strip() 

# check 
parse_doc(dic_predicted)
使用Python和OCR进行文档解析的完整代码演示

 

再看看图形报表

for block in [block for block in detected if block.type == "Figure"]: 
## segmentation 
segmented = block.pad(left=15, right=15, top=5, 
bottom=5).crop_image(img) 
## save 
dic_predicted[str(block.id)+"-"+block.type] = segmented 

# check 
parse_doc(dic_predicted)
使用Python和OCR进行文档解析的完整代码演示

 

上面两个看着很不错,那是因为这两种类型相对简单,但是表格就要复杂得多。 尤其是我们上看看到的的这个,因为它的行和列都是进行了合并后产生的。

for block in [block for block in detected if block.type == "Table"]: 
## segmentation 
segmented = block.pad(left=15, right=15, top=5, 
bottom=5).crop_image(img) 
## extraction 
extracted = model.detect(segmented) 
## save 
dic_predicted[str(block.id)+"-"+block.type] = pd.read_csv( 
io.StringIO(extracted) ) 
# check 
parse_doc(dic_predicted)
使用Python和OCR进行文档解析的完整代码演示

 

正如我们的预料提取的表格不是很好。好在Python有专门处理表格的包,我们可以直接处理而不将其转换为图像。 这里使用TabulaPy 包:

import tabula 
tables = tabula.read_pdf("doc_apple.pdf", pages=i+1) 
tables[0]
使用Python和OCR进行文档解析的完整代码演示

 

结果要好一些,但是名称仍然错了,但是效果要比直接OCR好的多

总结

本文是一个简单教程,演示了如何使用OCR进行文档解析。 使用Layoutpars软件包进行了整个检测和提取过程。 并展示了如何处理PDF文档中的文本,数字和表格。

作者:Mauro Di Pietro



Tags:OCR   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转
机器之心报道编辑:陈萍、梓文有了 Nougat,再也不用怕复杂的数学公式了。我们平时在阅读论文或者科学文献时,见到的文件格式基本上是 PDF(Portable Document Format)。据了解,PDF...【详细内容】
2023-08-30  Search: OCR  点击:(333)  评论:(0)  加入收藏
快速了解 EasyOCR 文字识别框架及应用
EasyOCREasyOCR 是一个开源的光学字符识别(OCR)工具,可以用于将图像中的文本转换为可编辑的文本。它基于深度学习技术实现,并且具有以下特点。 开源免费:EasyOCR 是一个开源框架,...【详细内容】
2023-08-07  Search: OCR  点击:(309)  评论:(0)  加入收藏
大模型时代的下OCR,“CPU味道”更重了
来源:量子位 作者:金磊、杨净经典技术OCR(光学字符识别),在大模型时代下要“变味”了。怎么说?我们都知道OCR这个技术在日常生活中已经普及开了,像各类文件、身份证、路标等识别,可...【详细内容】
2023-07-07  Search: OCR  点击:(251)  评论:(0)  加入收藏
如何使用Python中的OCR技术将图像中的文本提取为可编辑文件?
在Python中,可以使用多种库和工具来识别图片中的文本。其中,比较常用的是Tesseract OCR和Pytesseract库。下面将介绍如何使用Python和Pytesseract库来识别图片中的文本,并将其...【详细内容】
2023-05-18  Search: OCR  点击:(273)  评论:(0)  加入收藏
几款开源的OCR识别项目,收藏备用
随着科技的发展,OCR场景随处可见,很多APP也集成如身份证识别,银行卡识别的功能,包括微信都支持截图文件中的文字提取。现在,各大厂商均有提供各种场景的OCR识别的API。但是,有时候...【详细内容】
2023-03-17  Search: OCR  点击:(596)  评论:(0)  加入收藏
完全免费,不用联网,这套OCR工具比微信的还好用
说实话,这应该是微信 10 年来推出的最实用功能之一了。在微信里收到的图片,也支持你直接选取文字复制。除了功能实用,另一方面,微信早已成了电脑上必装软件,微信截图也是很多人默...【详细内容】
2022-11-30  Search: OCR  点击:(382)  评论:(0)  加入收藏
windows下安装Tesserocr
Tesserocr 是 Python 的一个 OCR 识别库,但其实是对Tesseract 做的一层 Python API 封装,所以它的核心是 Tesseract,所以在安装 Tesserocr 之前我们需要先安装 Tesseract,本节我...【详细内容】
2022-11-08  Search: OCR  点击:(354)  评论:(0)  加入收藏
身份证OCR识别是什么?
这些年,随着移动互联网的的发展,越来越多的企业都推出了自己的移动APP,这些APP多数都涉及到个人身份证信息的输入认证(即实名认证),如果手动去输入身份证号码和姓名,速度非常慢,且用...【详细内容】
2022-08-12  Search: OCR  点击:(325)  评论:(0)  加入收藏
使用Python和OCR进行文档解析的完整代码演示
在本文中将使用Python演示如何解析文档(如pdf)并提取文本,图形,表格等信息。文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流...【详细内容】
2022-07-19  Search: OCR  点击:(457)  评论:(0)  加入收藏
如何使用 Java 对收据的照片执行 OCR
本文的目的是演示一个专门设计用于对收据照片执行OCR(光学字符识别)操作并自动从中提取关键业务信息的 API,例如企业名称和地址、电话号码、收据总额等等。在页面的下方,我提供...【详细内容】
2022-07-15  Search: OCR  点击:(588)  评论:(0)  加入收藏
▌简易百科推荐
一篇文章教会你使用Python中三种简单的函数
所谓函数,就是指:把某些特定功能的代码组成为一个整体,这个整体就叫做函数。一、函数简介所谓函数,就是指:把某些特定功能的代码组成为一个整体,这个整体就叫做函数。二、函数定义...【详细内容】
2024-04-11  Go语言进阶学习  微信公众号  Tags:Python   点击:(12)  评论:(0)  加入收藏
一篇文章带你了解Python的分布式进程接口
在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。一、前言在Thread和Process中,应当优...【详细内容】
2024-04-11  Go语言进阶学习    Tags:Python   点击:(10)  评论:(0)  加入收藏
Python 可视化:Plotly 库使用基础
当使用 Plotly 进行数据可视化时,我们可以通过以下示例展示多种绘图方法,每个示例都会有详细的注释和说明。1.创建折线图import plotly.graph_objects as go# 示例1: 创建简单...【详细内容】
2024-04-01  Python技术    Tags:Python   点击:(15)  评论:(0)  加入收藏
Python 办公神器:教你使用 Python 批量制作 PPT
介绍本文将介绍如何使用openpyxl和pptx库来批量制作PPT奖状。本文假设你已经安装了python和这两个库。本文的场景是:一名基层人员,要给一次比赛活动获奖的500名选手制作奖状,并...【详细内容】
2024-03-26  Python技术  微信公众号  Tags:Python   点击:(21)  评论:(0)  加入收藏
Python实现工厂模式、抽象工厂,单例模式
工厂模式是一种常见的设计模式,它可以帮助我们创建对象的过程更加灵活和可扩展。在Python中,我们可以使用函数和类来实现工厂模式。一、Python中实现工厂模式工厂模式是一种常...【详细内容】
2024-03-07  Python都知道  微信公众号  Tags:Python   点击:(38)  评论:(0)  加入收藏
不可不学的Python技巧:字典推导式使用全攻略
Python的字典推导式是一种优雅而强大的工具,用于创建字典(dict)。这种方法不仅代码更加简洁,而且执行效率高。无论你是Python新手还是有经验的开发者,掌握字典推导式都将是你技能...【详细内容】
2024-02-22  子午Python  微信公众号  Tags:Python技巧   点击:(43)  评论:(0)  加入收藏
如何进行Python代码的代码重构和优化?
Python是一种高级编程语言,它具有简洁、易于理解和易于维护的特点。然而,代码重构和优化对于保持代码质量和性能至关重要。什么是代码重构?代码重构是指在不改变代码外部行为的...【详细内容】
2024-02-22  编程技术汇    Tags:Python代码   点击:(44)  评论:(0)  加入收藏
Python开发者必备的八个PyCharm插件
在编写代码的过程中,括号几乎无处不在,以至于有时我们会拼命辨别哪个闭合括号与哪个开头的括号相匹配。这款插件能帮助解决这个众所周知的问题。前言在PyCharm中浏览插件列表...【详细内容】
2024-01-26  Python学研大本营  微信公众号  Tags:PyCharm插件   点击:(92)  评论:(0)  加入收藏
Python的Graphlib库,再也不用手敲图结构了
Python中的graphlib库是一个功能强大且易于使用的工具。graphlib提供了许多功能,可以帮助您创建、操作和分析图形对象。本文将介绍graphlib库的主要用法,并提供一些示例代码和...【详细内容】
2024-01-26  科学随想录  微信公众号  Tags:Graphlib库   点击:(95)  评论:(0)  加入收藏
Python分布式爬虫打造搜索引擎
简单分布式爬虫结构主从模式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了,在这个...【详细内容】
2024-01-25  大雷家吃饭    Tags:Python   点击:(63)  评论:(0)  加入收藏
站内最新
站内热门
站内头条