如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

时间：2023-05-18 16:09:25 来源：今日头条作者：你的老师父

在Python/ target=_blank class=infotextkey>Python中，可以使用多种库和工具来识别图片中的文本。其中，比较常用的是Tesseract OCR和Pytesseract库。下面将介绍如何使用Python和Pytesseract库来识别图片中的文本，并将其整理成word、txt和markdown格式的文件。

1. 安装和配置Pytesseract库

Pytesseract是Python的一个OCR库，它是Tesseract OCR引擎的Python封装。在使用Pytesseract之前，需要先安装Tesseract OCR引擎和Pytesseract库。可以使用以下命令在linux系统中安装Tesseract OCR和Pytesseract库：

sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
pip install pytesseract

在windows系统中，可以从Tesseract OCR的官方网站（
https://Github.com/UB-Mannheim/tesseract/wiki）下载安装包，然后使用以下命令安装Pytesseract库：

pip install pytesseract

2. 识别图片中的文本

使用Pytesseract库识别图片中的文本非常简单。首先，需要导入pytesseract模块和PIL模块（用于打开和处理图片）。然后，可以使用
pytesseract.image_to_string()函数来识别图片中的文本。以下是一个简单的示例：

import pytesseract
from PIL import Image

# 打开图片
img = Image.open('example.png')

# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')

# 打印识别的文本
print(text)

在上面的示例中，
pytesseract.image_to_string()函数接受两个参数：要识别的图片和语言选项。默认情况下，Pytesseract使用英语语言模型进行识别。如果需要识别其他语言，可以将lang参数设置为对应的语言代码。

3. 整理识别的文本

在将识别的文本整理成word、txt和markdown格式的文件之前，需要先对识别的文本进行处理和清洗，以确保输出的文件格式正确。以下是一些常用的文本处理和清洗操作：

去除多余的空格和换行符
将文本按照段落进行分割
将文本按照句子进行分割
删除无用的字符和标点符号
将文本转换为小写字母（可选）
...

下面是一个示例代码，将识别的文本整理成txt格式的文件：

import pytesseract
from PIL import Image

# 打开图片
img = Image.open('example.png')

# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')

# 去除多余的空格和换行符
text = ' '.join(text.split())
text = text.replace('n', ' ')

# 将文本按照段落进行分割
paragraphs = text.split('nn')

# 创建txt文件并写入文本
with open('example.txt', 'w') as f:
    for p in paragraphs:
        f.write(p + 'nn')

将识别的文本整理成word、markdown格式的文件也类似，只需要将输出格式从txt改为对应的格式，然后使用相应的库或工具来生成文件即可。

4. 完整代码

下面是一个完整的示例代码，将识别的文本整理成word、txt格式的文件：

import pytesseract
from PIL import Image
import docx
import os

# 打开图片
img = Image.open('example.png')

# 识别图片中的文本
text = pytesseract.image_to_string(img, lang='eng')

# 去除多余的空格和换行符
text = ' '.join(text.split())
text = text.replace('n', ' ')

# 将文本按照段落进行分割
paragraphs = text.split('nn')

# 将文本整理成word格式的文件
doc = docx.Document()
for p in paragraphs:
    doc.add_paragraph(p)
doc.save('example.docx')

# 将文本整理成txt格式的文件
with open('example.txt', 'w') as f:
    for p in paragraphs:
        f.write(p + 'nn')

# 打开生成的文件
os.system('start example.docx')
os.system('start example.txt')

在上面的代码中，使用了Python的docx库来生成word格式的文件。在生成文件之后，使用os模块打开文件。在Windows系统中，可以使用os.system()函数来打开文件。在其他操作系统中，可能需要使用其他方式来打开文件。

Tags：Python 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Python 可视化：Plotly 库使用基础

当使用 Plotly 进行数据可视化时，我们可以通过以下示例展示多种绘图方法，每个示例都会有详细的注释和说明。1.创建折线图import plotly.graph_objects as go# 示例1: 创建简单...【详细内容】

2024-04-01　　Search: Python 点击:(8)　　评论:(0)　　加入收藏

Python 办公神器：教你使用 Python 批量制作 PPT

介绍本文将介绍如何使用openpyxl和pptx库来批量制作PPT奖状。本文假设你已经安装了python和这两个库。本文的场景是：一名基层人员，要给一次比赛活动获奖的500名选手制作奖状，并...【详细内容】

2024-03-26　　Search: Python 点击:(17)　　评论:(0)　　加入收藏

Python实现工厂模式、抽象工厂，单例模式

工厂模式是一种常见的设计模式，它可以帮助我们创建对象的过程更加灵活和可扩展。在Python中，我们可以使用函数和类来实现工厂模式。一、Python中实现工厂模式工厂模式是一种常...【详细内容】

2024-03-07　　Search: Python 点击:(33)　　评论:(0)　　加入收藏

不可不学的Python技巧：字典推导式使用全攻略

Python的字典推导式是一种优雅而强大的工具，用于创建字典（dict）。这种方法不仅代码更加简洁，而且执行效率高。无论你是Python新手还是有经验的开发者，掌握字典推导式都将是你技能...【详细内容】

2024-02-22　　Search: Python 点击:(34)　　评论:(0)　　加入收藏

如何进行Python代码的代码重构和优化？

Python是一种高级编程语言，它具有简洁、易于理解和易于维护的特点。然而，代码重构和优化对于保持代码质量和性能至关重要。什么是代码重构？代码重构是指在不改变代码外部行为的...【详细内容】

2024-02-22　　Search: Python 点击:(35)　　评论:(0)　　加入收藏

Python开发者必备的八个PyCharm插件

在编写代码的过程中，括号几乎无处不在，以至于有时我们会拼命辨别哪个闭合括号与哪个开头的括号相匹配。这款插件能帮助解决这个众所周知的问题。前言在PyCharm中浏览插件列表...【详细内容】

2024-01-26　　Search: Python 点击:(87)　　评论:(0)　　加入收藏

Python的Graphlib库，再也不用手敲图结构了

Python中的graphlib库是一个功能强大且易于使用的工具。graphlib提供了许多功能，可以帮助您创建、操作和分析图形对象。本文将介绍graphlib库的主要用法，并提供一些示例代码和...【详细内容】

2024-01-26　　Search: Python 点击:(88)　　评论:(0)　　加入收藏

大语言模型插件功能在携程的Python实践

作者简介成学，携程高级安全研发工程师，关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初，科技圈最火爆的话题莫过于大语言模型了，它是一种全新的聊天机器人模型，...【详细内容】

2024-01-26　　Search: Python 点击:(74)　　评论:(0)　　加入收藏

如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道

译者 | 李睿审校 | 重楼在当今竞争激烈的市场环境中，为了生存和发展，企业必须能够实时收集、处理和响应数据。无论是检测欺诈、个性化用户体验还是监控系统，现在都需要接近即时...【详细内容】

2024-01-26　　Search: Python 点击:(47)　　评论:(0)　　加入收藏

Python分布式爬虫打造搜索引擎

简单分布式爬虫结构主从模式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理，爬虫只需要从控制节点那里接收任务，并把新生成任务提交给控制节点就可以了，在这个...【详细内容】

2024-01-25　　Search: Python 点击:(59)　　评论:(0)　　加入收藏

▌简易百科推荐

Python 可视化：Plotly 库使用基础

2024-04-01　　Python技术　　　　Tags:Python 　点击:(8)　　评论:(0)　　加入收藏

Python 办公神器：教你使用 Python 批量制作 PPT

2024-03-26　　Python技术　　微信公众号　　Tags:Python 　点击:(17)　　评论:(0)　　加入收藏

Python实现工厂模式、抽象工厂，单例模式

2024-03-07　　Python都知道　　微信公众号　　Tags:Python 　点击:(33)　　评论:(0)　　加入收藏

不可不学的Python技巧：字典推导式使用全攻略

2024-02-22　　子午Python　　微信公众号　　Tags:Python技巧　点击:(34)　　评论:(0)　　加入收藏

如何进行Python代码的代码重构和优化？

2024-02-22　　编程技术汇　　　　Tags:Python代码　点击:(35)　　评论:(0)　　加入收藏

Python开发者必备的八个PyCharm插件

2024-01-26　　Python学研大本营　　微信公众号　　Tags:PyCharm插件　点击:(87)　　评论:(0)　　加入收藏

Python的Graphlib库，再也不用手敲图结构了

2024-01-26　　科学随想录　　微信公众号　　Tags:Graphlib库　点击:(88)　　评论:(0)　　加入收藏

Python分布式爬虫打造搜索引擎

2024-01-25　　大雷家吃饭　　　　Tags:Python 　点击:(59)　　评论:(0)　　加入收藏

使用Python进行数据分析，需要哪些步骤？

Python是一门动态的、面向对象的脚本语言，同时也是一门简约，通俗易懂的编程语言。Python入门简单，代码可读性强，一段好的Python代码，阅读起来像是在读一篇外语文章。Python这种特...【详细内容】

2024-01-15　　程序员不二　　　　Tags:Python 　点击:(166)　　评论:(0)　　加入收藏

Python语言的特点及应用场景, 同其它语言对比优势

Python语言作为一种高级编程语言，具有许多独特的特点和优势，这使得它在众多编程语言中脱颖而出。在本文中，我们将探讨Python语言的特点、应用场景以及与其他语言的对比优势。一...【详细内容】

2024-01-09　　　　今日头条　　Tags:Python语言　点击:(257)　　评论:(0)　　加入收藏

推荐资讯

整治“暗箱操作” 义	网易再牵暴雪的手，实际
注意！密码、验证码都没	将他人商标设为搜索关
打破刚兑：投资者还能相	拜登坐不住了？罕见对美
黄金狂飙如何影响人民	重新审视2008年全球金