您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

几款开源的OCR识别项目,收藏备用

时间:2023-03-17 11:50:10  来源:今日头条  作者:自学编程之道

随着科技的发展,OCR场景随处可见,很多App也集成如身份证识别,银行卡识别的功能,包括微信都支持截图文件中的文字提取。现在,各大厂商均有提供各种场景的OCR识别的API。但是,有时候我们也想自己来折腾一下。这时候,就可以借助一些主流开源框架来快速达到我们的目的。

OCR引擎

tesseract

Tesseract,一款由HP实验室开发由google维护的开源OCR引擎,开源,免费,支持多语言,多平台;

 

 

​https://github.com/tesseract-ocr/tesseract.git​

tesseract.js

js版本的Tesseract OCR,支持一百多种语言,使用也是非常简单,可以用npm安装,也可以直接在页面引用js

 

 

 

 

​https://github.com/naptha/tesseract.js.git​

PaddleOCR

PaddleOCR是百度开源一套OCR,旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地。

 

 

 

 

 

 

 

​https://github.com/PaddlePaddle/PaddleOCR.git​

EasyOCR

EasyOCR是用Python/ target=_blank class=infotextkey>Python编写基于Tesseract的OCR识别库,用于图像识别输出文本,目前支持80多种语言。

 

 

​https://github.com/JaidedAI/EasyOCR.git​

mmocr

MMOCR 是基于 PyTorch 和 mmdetection 的开源工具箱,专注于文本检测,文本识别以及相应的下游任务,如关键信息提取。

 

 

​https://github.com/open-mmlab/mmocr.git​

simple-ocr-opencv

基于opencv 和numpy开源的OCR识别引擎

 

 

​https://github.com/goncalopp/simple-ocr-opencv.git​

OCR工具

OCRmyPDF

OCRmyPDF是基于tesseract-ocr开发、训练的文字识别提取的开源项目

 

 

​https://github.com/ocrmypdf/OCRmyPDF.git​

Umi-OCR

基于 PaddleOCR 实现的一款开源的文字识别工具,

 

 

一般开源项目,识别率肯定没有商用的那么高,只有通过训练自己的字库来提高识别率。文字识别场景,有时候就会涉及到图片处理,这里又会关联到其它强大的图像处理开源项目,如:OpenCV。这些项目中,PaddleOCR相对来说会更符合我们常见的业务场景,也支持我们自己去训练。



Tags:OCR   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转
机器之心报道编辑:陈萍、梓文有了 Nougat,再也不用怕复杂的数学公式了。我们平时在阅读论文或者科学文献时,见到的文件格式基本上是 PDF(Portable Document Format)。据了解,PDF...【详细内容】
2023-08-30  Search: OCR  点击:(330)  评论:(0)  加入收藏
快速了解 EasyOCR 文字识别框架及应用
EasyOCREasyOCR 是一个开源的光学字符识别(OCR)工具,可以用于将图像中的文本转换为可编辑的文本。它基于深度学习技术实现,并且具有以下特点。 开源免费:EasyOCR 是一个开源框架,...【详细内容】
2023-08-07  Search: OCR  点击:(300)  评论:(0)  加入收藏
大模型时代的下OCR,“CPU味道”更重了
来源:量子位 作者:金磊、杨净经典技术OCR(光学字符识别),在大模型时代下要“变味”了。怎么说?我们都知道OCR这个技术在日常生活中已经普及开了,像各类文件、身份证、路标等识别,可...【详细内容】
2023-07-07  Search: OCR  点击:(250)  评论:(0)  加入收藏
如何使用Python中的OCR技术将图像中的文本提取为可编辑文件?
在Python中,可以使用多种库和工具来识别图片中的文本。其中,比较常用的是Tesseract OCR和Pytesseract库。下面将介绍如何使用Python和Pytesseract库来识别图片中的文本,并将其...【详细内容】
2023-05-18  Search: OCR  点击:(272)  评论:(0)  加入收藏
几款开源的OCR识别项目,收藏备用
随着科技的发展,OCR场景随处可见,很多APP也集成如身份证识别,银行卡识别的功能,包括微信都支持截图文件中的文字提取。现在,各大厂商均有提供各种场景的OCR识别的API。但是,有时候...【详细内容】
2023-03-17  Search: OCR  点击:(592)  评论:(0)  加入收藏
完全免费,不用联网,这套OCR工具比微信的还好用
说实话,这应该是微信 10 年来推出的最实用功能之一了。在微信里收到的图片,也支持你直接选取文字复制。除了功能实用,另一方面,微信早已成了电脑上必装软件,微信截图也是很多人默...【详细内容】
2022-11-30  Search: OCR  点击:(378)  评论:(0)  加入收藏
windows下安装Tesserocr
Tesserocr 是 Python 的一个 OCR 识别库,但其实是对Tesseract 做的一层 Python API 封装,所以它的核心是 Tesseract,所以在安装 Tesserocr 之前我们需要先安装 Tesseract,本节我...【详细内容】
2022-11-08  Search: OCR  点击:(346)  评论:(0)  加入收藏
身份证OCR识别是什么?
这些年,随着移动互联网的的发展,越来越多的企业都推出了自己的移动APP,这些APP多数都涉及到个人身份证信息的输入认证(即实名认证),如果手动去输入身份证号码和姓名,速度非常慢,且用...【详细内容】
2022-08-12  Search: OCR  点击:(324)  评论:(0)  加入收藏
使用Python和OCR进行文档解析的完整代码演示
在本文中将使用Python演示如何解析文档(如pdf)并提取文本,图形,表格等信息。文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流...【详细内容】
2022-07-19  Search: OCR  点击:(448)  评论:(0)  加入收藏
如何使用 Java 对收据的照片执行 OCR
本文的目的是演示一个专门设计用于对收据照片执行OCR(光学字符识别)操作并自动从中提取关键业务信息的 API,例如企业名称和地址、电话号码、收据总额等等。在页面的下方,我提供...【详细内容】
2022-07-15  Search: OCR  点击:(586)  评论:(0)  加入收藏
▌简易百科推荐
Netflix 是如何管理 2.38 亿会员的
作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员 的演讲。她在...【详细内容】
2024-04-08    InfoQ  Tags:Netflix   点击:(0)  评论:(0)  加入收藏
即将过时的 5 种软件开发技能!
作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈(微信号:blog51cto) 时至今日,AI编码工具已经进化到足够强大了吗?这未必好回答,但从2023 年 Stack Overflow 上的调查数据来看,44%...【详细内容】
2024-04-03    51CTO  Tags:软件开发   点击:(6)  评论:(0)  加入收藏
跳转链接代码怎么写?
在网页开发中,跳转链接是一项常见的功能。然而,对于非技术人员来说,编写跳转链接代码可能会显得有些困难。不用担心!我们可以借助外链平台来简化操作,即使没有编程经验,也能轻松实...【详细内容】
2024-03-27  蓝色天纪    Tags:跳转链接   点击:(13)  评论:(0)  加入收藏
中台亡了,问题到底出在哪里?
曾几何时,中台一度被当做“变革灵药”,嫁接在“前台作战单元”和“后台资源部门”之间,实现企业各业务线的“打通”和全域业务能力集成,提高开发和服务效率。但在中台如火如荼之...【详细内容】
2024-03-27  dbaplus社群    Tags:中台   点击:(9)  评论:(0)  加入收藏
员工写了个比删库更可怕的Bug!
想必大家都听说过删库跑路吧,我之前一直把它当一个段子来看。可万万没想到,就在昨天,我们公司的某位员工,竟然写了一个比删库更可怕的 Bug!给大家分享一下(不是公开处刑),希望朋友们...【详细内容】
2024-03-26  dbaplus社群    Tags:Bug   点击:(5)  评论:(0)  加入收藏
我们一起聊聊什么是正向代理和反向代理
从字面意思上看,代理就是代替处理的意思,一个对象有能力代替另一个对象处理某一件事。代理,这个词在我们的日常生活中也不陌生,比如在购物、旅游等场景中,我们经常会委托别人代替...【详细内容】
2024-03-26  萤火架构  微信公众号  Tags:正向代理   点击:(11)  评论:(0)  加入收藏
看一遍就理解:IO模型详解
前言大家好,我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢,先问问大家几个问题哈~什么是IO呢?什么是阻塞非阻塞IO?什么是同步异步IO?什么是IO多路复用?select/epoll...【详细内容】
2024-03-26  捡田螺的小男孩  微信公众号  Tags:IO模型   点击:(9)  评论:(0)  加入收藏
为什么都说 HashMap 是线程不安全的?
做Java开发的人,应该都用过 HashMap 这种集合。今天就和大家来聊聊,为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说,HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】
2024-03-22  Java技术指北  微信公众号  Tags:HashMap   点击:(11)  评论:(0)  加入收藏
如何从头开始编写LoRA代码,这有一份教程
选自 lightning.ai作者:Sebastian Raschka机器之心编译编辑:陈萍作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大...【详细内容】
2024-03-21  机器之心Pro    Tags:LoRA   点击:(12)  评论:(0)  加入收藏
这样搭建日志中心,传统的ELK就扔了吧!
最近客户有个新需求,就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的...【详细内容】
2024-03-20  dbaplus社群    Tags:日志   点击:(4)  评论:(0)  加入收藏
站内最新
站内热门
站内头条