几款开源的OCR识别项目，收藏备用

时间：2023-03-17 11:50:10 来源：今日头条作者：自学编程之道

随着科技的发展，OCR场景随处可见，很多App也集成如身份证识别，银行卡识别的功能，包括微信都支持截图文件中的文字提取。现在，各大厂商均有提供各种场景的OCR识别的API。但是，有时候我们也想自己来折腾一下。这时候，就可以借助一些主流开源框架来快速达到我们的目的。

OCR引擎

tesseract

Tesseract，一款由HP实验室开发由google维护的开源OCR引擎，开源，免费，支持多语言，多平台;

https://github.com/tesseract-ocr/tesseract.git

tesseract.js

js版本的Tesseract OCR,支持一百多种语言,使用也是非常简单，可以用npm安装，也可以直接在页面引用js

https://github.com/naptha/tesseract.js.git

PaddleOCR

PaddleOCR是百度开源一套OCR,旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。

https://github.com/PaddlePaddle/PaddleOCR.git

EasyOCR

EasyOCR是用Python/ target=_blank class=infotextkey>Python编写基于Tesseract的OCR识别库，用于图像识别输出文本，目前支持80多种语言。

https://github.com/JaidedAI/EasyOCR.git

mmocr

MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱，专注于文本检测，文本识别以及相应的下游任务，如关键信息提取。

https://github.com/open-mmlab/mmocr.git

simple-ocr-opencv

基于opencv 和numpy开源的OCR识别引擎

https://github.com/goncalopp/simple-ocr-opencv.git

OCR工具

OCRmyPDF

OCRmyPDF是基于tesseract-ocr开发、训练的文字识别提取的开源项目

https://github.com/ocrmypdf/OCRmyPDF.git

Umi-OCR

基于 PaddleOCR 实现的一款开源的文字识别工具，

一般开源项目，识别率肯定没有商用的那么高，只有通过训练自己的字库来提高识别率。文字识别场景，有时候就会涉及到图片处理，这里又会关联到其它强大的图像处理开源项目，如：OpenCV。这些项目中，PaddleOCR相对来说会更符合我们常见的业务场景，也支持我们自己去训练。

Tags：OCR 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

学术党狂喜，Meta推出OCR神器，PDF、数学公式都能转

机器之心报道编辑：陈萍、梓文有了 Nougat，再也不用怕复杂的数学公式了。我们平时在阅读论文或者科学文献时，见到的文件格式基本上是 PDF（Portable Document Format）。据了解，PDF...【详细内容】

2023-08-30　　Search: OCR 点击:(330)　　评论:(0)　　加入收藏

快速了解 EasyOCR 文字识别框架及应用

EasyOCREasyOCR 是一个开源的光学字符识别（OCR）工具，可以用于将图像中的文本转换为可编辑的文本。它基于深度学习技术实现，并且具有以下特点。开源免费：EasyOCR 是一个开源框架，...【详细内容】

2023-08-07　　Search: OCR 点击:(300)　　评论:(0)　　加入收藏

大模型时代的下OCR，“CPU味道”更重了

来源：量子位作者：金磊、杨净经典技术OCR（光学字符识别），在大模型时代下要“变味”了。怎么说？我们都知道OCR这个技术在日常生活中已经普及开了，像各类文件、身份证、路标等识别，可...【详细内容】

2023-07-07　　Search: OCR 点击:(250)　　评论:(0)　　加入收藏

如何使用Python中的OCR技术将图像中的文本提取为可编辑文件？

在Python中，可以使用多种库和工具来识别图片中的文本。其中，比较常用的是Tesseract OCR和Pytesseract库。下面将介绍如何使用Python和Pytesseract库来识别图片中的文本，并将其...【详细内容】

2023-05-18　　Search: OCR 点击:(272)　　评论:(0)　　加入收藏

几款开源的OCR识别项目，收藏备用

随着科技的发展，OCR场景随处可见，很多APP也集成如身份证识别，银行卡识别的功能，包括微信都支持截图文件中的文字提取。现在，各大厂商均有提供各种场景的OCR识别的API。但是，有时候...【详细内容】

2023-03-17　　Search: OCR 点击:(592)　　评论:(0)　　加入收藏

完全免费，不用联网，这套OCR工具比微信的还好用

说实话，这应该是微信 10 年来推出的最实用功能之一了。在微信里收到的图片，也支持你直接选取文字复制。除了功能实用，另一方面，微信早已成了电脑上必装软件，微信截图也是很多人默...【详细内容】

2022-11-30　　Search: OCR 点击:(378)　　评论:(0)　　加入收藏

windows下安装Tesserocr

Tesserocr 是 Python 的一个 OCR 识别库，但其实是对Tesseract 做的一层 Python API 封装，所以它的核心是 Tesseract，所以在安装 Tesserocr 之前我们需要先安装 Tesseract，本节我...【详细内容】

2022-11-08　　Search: OCR 点击:(346)　　评论:(0)　　加入收藏

身份证OCR识别是什么？

这些年，随着移动互联网的的发展，越来越多的企业都推出了自己的移动APP，这些APP多数都涉及到个人身份证信息的输入认证（即实名认证），如果手动去输入身份证号码和姓名，速度非常慢，且用...【详细内容】

2022-08-12　　Search: OCR 点击:(324)　　评论:(0)　　加入收藏

使用Python和OCR进行文档解析的完整代码演示

在本文中将使用Python演示如何解析文档(如pdf)并提取文本，图形，表格等信息。文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流...【详细内容】

2022-07-19　　Search: OCR 点击:(448)　　评论:(0)　　加入收藏

如何使用 Java 对收据的照片执行 OCR

本文的目的是演示一个专门设计用于对收据照片执行OCR（光学字符识别）操作并自动从中提取关键业务信息的 API，例如企业名称和地址、电话号码、收据总额等等。在页面的下方，我提供...【详细内容】

2022-07-15　　Search: OCR 点击:(586)　　评论:(0)　　加入收藏

▌简易百科推荐

Netflix 是如何管理 2.38 亿会员的

作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员的演讲。她在...【详细内容】

2024-04-08　　　　InfoQ　　Tags:Netflix 　点击:(0)　　评论:(0)　　加入收藏

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(6)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(13)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(9)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(11)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(9)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

推荐资讯

新增融券再启动暂停键	16个Redis常见使用场
一篇文章教会你使用Py	聊聊Rust里面的数据类
C++中的外部模板及其	一篇文章带你了解Pyth
网络安全行业的春天何	Linux获取Redis 性能

站内最新

栏目相关

· Netflix 是如何管理 2.38 亿会员的

· 为什么都说 HashMap 是线程不安全的？

· 如何从头开始编写LoRA代码，这有一份教程

· 这样搭建日志中心，传统的ELK就扔了吧！

· Kubernetes 究竟有没有 LTS？

· 三分钟学会负载均衡的重要性与Ribbon集成

· 手把手教你解决推荐系统中的位置偏差问题

· 有了这五个方法，轻松处理异步任务

· Elasticsearch 性能优化详解

· 有了LLM，所有程序员都将转变为架构师？

· 2024“跨平台”不香了？知名开源项目淘汰Xamarin，转向原生开发

· Mybatis参数映射搞不明白？来试试这个工具吧！

· 十个前端冷门但好用的前端工具函数库

· 前端开发：Visual Studio Code和Visual studio如何选？

站内热门