您当前的位置：首页 > 电脑百科 > 程序开发 > 语言 > Python

别再问如何用python提取PDF内容了

时间：2020-09-10 10:20:44 来源：作者：

+ 加入收藏

作者：陈熹

来源：早起Python/ target=_blank class=infotextkey>Python

大家好，在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件，包括合并、拆分、水印、加密等操作。

今天我们再次回到PDF，详细讲解如何使用python从PDF提取指定的信息。我们将以一份年度报告PDF为例进行介绍，内含大量文字、表格、图片，具体如下

模块安装

首先需要安装两个模块，第一个是pdfplumber，在命令行使用pip安装即可

pip install pdfplumber

第二个是fitz, 它是pymupdf中的一个模块，同样可以使用pip轻松安装

pip install pymupdf

文字信息提取

使用python提取PDF中文字代码思路如下

利用pdfplumber打开一个 PDF 文件
获取指定的页，或者遍历每一页
利用.extract_text()方法提取当前页的文字

现在让我们用上述代码尝试提取示例数据中第12页的文字

import pdfplumber
file_path = r'C:xxxxpractice.PDF'

with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[11]
    print(page.extract_text())

结果如下图所示

接着可以将内容通过导入python-docx并借助wordfile.add_paragraph()写入Word文件中，而这个模块我们已经讲解很多次，此处就不再赘述。

表格信息提取

使用Python提取单个表格和提取单页文字的代码非常类似，用的是.extract_table()

但需要注意的是.extract_table()默认提取指定页面的第一个表格，如果当前页面有多个表格都需要提取，则要直接使用.extract_tables()

例如示例文件中第 13 页有 2 个表格，我们分别利用.extract_table()和.extract_tables()观察输出结果

import pdfplumber
file_path = r'C:xxxxpractice.PDF'

with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[12]
    print(page.extract_table())

结果如下

可以看到是一个嵌套列表，熟悉这种格式的人会理解想到可以pandas或者遍历该嵌套列表后借助openpyxl的sheet.Append(list)写入Excel文件中，

import pdfplumber
file_path = r'C:xxxxpractice.PDF'

with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[12]
    print(page.extract_tables())

而.extract_tables()提取当前页所有表格会产生了一个三级嵌套列表，第一层的列表就代表每一个表格，之后也可以利用其他库写入Excel。

图片提取

对于图片提取，现在没有任何一个模块可以做到百分之百的提取。本文只介绍基于fitz模块的代码，基本思路是通过正则查找图片并将其输出

例如提取示例文件中的图片，代码可以这么写

import fitz
import re
import os

file_path = r'C:xxxpractice.PDF'
dir_path = r'C:xxx' # 存放图片的文件夹

def pdf2pic(path, pic_path):
    checkXO = r"/Type(?= */XObject)"
    checkIM = r"/Subtype(?= */Image)"
    pdf = fitz.open(path)
    lenXREF = pdf._getXrefLength()
    imgcount = 0
    for i in range(1, lenXREF):
        text = pdf._getXrefString(i)
        isXObject = re.search(checkXO, text)
        isImage = re.search(checkIM, text)
        if not isXObject or not isImage:
            continue
        imgcount += 1
        pix = fitz.Pixmap(pdf, i)
        new_name = f"img_{imgcount}.png"
        if pix.n < 5:
            pix.writePNG(os.path.join(pic_path, new_name))
        else:
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, new_name))
            pix0 = None
        pix = None

pdf2pic(file_path, dir_path)

结果如下

可以看到成功提取了图片，但PDF中的图片远不止这些，如果你有其他思路或者方法可以在留言区与我交流。

写在最后

最后要说明的是，在上一篇文章及本文中我们剖析了每一行代码。但针对PDF的模块较多，且有些模块功能并不完善，代码也没有类似office三件套操作那般简洁，因此更多时候以理解为主，不需要完全掌握写，会用会改即可！

当然还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手，并且能与日常办公结合让复杂的工作自动化！

Tags：python PDF 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

别再问如何用python提取PDF内容了

大家好，在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件，包括合并、拆分、水印、加密等操作。...【详细内容】

2020-09-10　　Tags: python PDF 点击:(122)　　评论:(0)　　加入收藏

▌简易百科推荐

什么是Web3.0，与当下Web有什么区别，在未来真的能实现吗？

近几年 Web3 被炒得火热，但是大部分人可能还不清楚什么是 Web3，今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么？与我们熟知的 Web1 和 Web2 又有什么区别呢？web3.0什么是...【详细内容】

2022-07-15　　编程狮W3Cschool　　　　Tags:Web3.0 　点击:(2)　　评论:(0)　　加入收藏

手机Python编程神器——AidLearning

1、让我们一起来看下吧，直接上图。第一眼看到是不是觉得很高逼格，暗黑画风，这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统，而且还包含了许多非常强大...【详细内容】

2022-07-15　　IT智能化专栏　　　　Tags:AidLearning 　点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心！一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放 ...【详细内容】

2022-07-14　　菜鸟程序猿　　　　Tags:Python 　点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接，废话不多说咱们直接进入主题吧。一、什么是 PyMySQL？PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，P...【详细内容】

2022-07-11　　测试架构师百里　　　　Tags:python 　点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

aiohttp什么是 aiohttp？一个异步的 HTTP 客户端\服务端框架，基于 asyncio 的异步模块。可用于实现异步爬虫，更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】

2022-07-11　　VT漫步　　　　Tags:aiohttp 　点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中，比如爬虫，有的线程负责爬取数据，有的线程负责对爬取到的数据做处理（清洗、分类和入库）。假如他们是直接交互的，...【详细内容】

2022-07-06　　VT漫步　　　　Tags:Python Queue 　点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

继承：是面向对象编程最重要的特性之一，例如，我们每个人都从祖辈和父母那里继承了一些体貌特征，但每个人却又不同于父母，有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】

2022-07-06　　至尊小狸子　　　　Tags:python 　点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

点击上方头像关注我，每周上午 09:00准时推送，每月不定期赠送技术书籍。本文1553字，阅读约需4分钟 Hi，大家好，我是CoCo。在上一篇Python自动化测试系列文章：Python自动化测试之P...【详细内容】

2022-07-05　　CoCo的软件测试小栈　　　　Tags:Python 　点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

第一种方式：res = requests.get(url, params=data, headers = headers)第二种方式：res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】

2022-07-05　　独钓寒江雪之IT　　　　Tags:Python request 　点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

什么是python类的多态python的多态，可以为不同的类实例，或者说不同的数据处理方式，提供统一的接口。用比喻的方式理解python类的多态比如，同一个苹果（统一的接口）在孩子的眼里（类实...【详细内容】

2022-07-04　　写小说的程序员　　　　Tags:python类　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

一文搞懂响应式编程	Android开发组件化与
最流行的 .NET 反编译	MyBatis源码解读 \| 使
mysql数据库中的my.in	女生，人生第一支大牌口
防晒不分男女！防晒帽同	手表鉴定 \| 一眼看真