您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

时间:2020-07-16 10:15:01  来源:  作者:
 

https://blog.csdn.net/weixin_43521592/article/details/106890179

5.3 Tesseract图形验证码识别

相信大家平时在登录或者请求一些数据的时候经常会遇到图形验证码,而我们爬虫有时候就因为图形验证码而手足无措,这一章通过学习Tesseract 来解决这个问题,使你的爬虫之路更加的畅通无阻。

Tesseract是一个目前最优秀最准确的开源ORC库,目前有谷歌赞助,可以经过训练识别任何字体。

ORC 即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。

Tesseract 下载安装:

第一步:下载Tesseract并安装

windows系统下载地址:后台回复“20200715”获取下载链接

安装过程中需要勾选一下下图的操作,其他一直next即可

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 

第二步:配置环境变量

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 


「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 

第三步:打开cmd,输入 tesseract -v ,如果则输入类似于下图信息。

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 

至此tesseract 就安装好了。

终端操作tesseract

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 


「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 

在此路径下识别图片:tesseract 图片名称 识别后文本的名称

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 


「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 


「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 

可以看出,tesseract识别这种白底黑字数字的能力还是蛮高的。

Python中使用Tesseract

使用前需要安装pip install pytesseract

另外,读取图片时需要借用一个第三方库PIL ,可通过pip安装pip install PIL 。

import pytesseract
from PIL import Image
# 打开图片
image = Image.open(r'D:jetbrainstest.png')
# 将图片转为文字
text = pytesseract.image_to_string(image)
# 输出文字
print(text)

自动识别图形验证码方式

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 

获取到验证码的url之后,你复制到浏览器中打开,你会发现每次刷新页面图形都会改变,那这就是图形验证码的url了,我们可以把它下载到本地,然后利用Image打开,接着用tesseract来识别。

但现在的反爬虫机制越来越强了,图形验证码是越来越复杂,这时tesseract就显得吃力了,而如何我们可以对其进行训练的话那么它依旧会很强大,但是训练的过程比较难且复杂,所以我们可以借助专门搞这行的第三方平台来帮助我们。

我们只需要按照第三方平台规定的格式来发送图片url及一些参数,就可以很大几率的识别出验证码。

这次案例我们选择阿里云上的图形验证码识别服务,阿里云有给每个用户免费使用识别图形的机会,所以对于平时偶尔爬爬虫的小伙伴来说是个不错的选择。

「爬虫教程」第五章:爬虫进阶之Tesseract图形识别

 

下面来看代码如何获取:

import requests
# 图形验证码的url
yzm_url = '"http://icode.renren.com/getcode.do?t=web_login&rnd=0.48174523967288096"'
#IMAGE_TYPE 为 1代表图像内容为图像文件URL链接 0代表图像内容为BASE64编码;
bodys = {"IMAGE": yam_url,
         "IMAGE_TYPE": "1"}
# 固定格式
recognize_url = 'http://codevirify.market.alicloudapi.com/icredit_ai_image/verify_code/v1'
# 购买成功后可以在订单那里查看Appcode
headers = {
           "Content-Type":"application/x-www-form-urlencoded; charset=utf-8",
           "Authorization":"APPCODE 5222ba0966de4f4ebb0ac0a5b3f8064a"}
# 传参 
response = requests.post(recognize_url,data=bodys,headers=headers)
print(response.json())

结果为:

{

‘VERIFY_CODE_STATUS’: ‘艾科瑞特,让企业业绩长青’,

’ VERIFY_CODE_ENTITY’: {‘VERIFY_CODE’: ‘WFKPT’}

}

其中 VERIFY_CODE里面加粗的内容就是我们所需要的验证码的内容。

所以,一般你要改的就是yzm_url,IMAGE_TYPE 、Authorization的APPCODE 。具体可以查看该商品的API接口:智能图像分析-通用验证码识别-艾科瑞特



Tags:爬虫教程   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
https://blog.csdn.net/weixin_43521592/article/details/1068901795.3 Tesseract图形验证码识别相信大家平时在登录或者请求一些数据的时候经常会遇到图形验证码,而我们爬...【详细内容】
2020-07-16  Tags: 爬虫教程  点击:(45)  评论:(0)  加入收藏
▌简易百科推荐
本文分为三个等级自顶向下地分析了glibc中内存分配与回收的过程。本文不过度关注细节,因此只是分别从arena层次、bin层次、chunk层次进行图解,而不涉及有关指针的具体操作。前...【详细内容】
2021-12-28  linux技术栈    Tags:glibc   点击:(3)  评论:(0)  加入收藏
摘 要 (OF作品展示)OF之前介绍了用python实现数据可视化、数据分析及一些小项目,但基本都是后端的知识。想要做一个好看的可视化大屏,我们还要学一些前端的知识(vue),网上有很多比...【详细内容】
2021-12-27  项目与数据管理    Tags:Vue   点击:(2)  评论:(0)  加入收藏
程序是如何被执行的  程序是如何被执行的?许多开发者可能也没法回答这个问题,大多数人更注重的是如何编写程序,却不会太注意编写好的程序是如何被运行,这并不是一个好...【详细内容】
2021-12-23  IT学习日记    Tags:程序   点击:(9)  评论:(0)  加入收藏
阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案 单系统登录解决方案的核心是cookie,cookie携带会话id在浏览器...【详细内容】
2021-12-23  程序yuan    Tags:单点登录(   点击:(8)  评论:(0)  加入收藏
下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse,那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用(总共分为六步)1...【详细内容】
2021-12-22  阿福ChrisYuan    Tags:RCP应用   点击:(7)  评论:(0)  加入收藏
今天想简单聊一聊 Token 的 Value Capture,就是币的价值问题。首先说明啊,这个话题包含的内容非常之光,Token 的经济学设计也可以包含诸多问题,所以几乎不可能把这个问题说的清...【详细内容】
2021-12-21  唐少华TSH    Tags:Token   点击:(10)  评论:(0)  加入收藏
实现效果:假如有10条数据,分组展示,默认在当前页面展示4个,点击换一批,从第5个开始继续展示,到最后一组,再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】
2021-12-17  Mason程    Tags:VUE   点击:(14)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  软件测试小p    Tags:性能调优   点击:(20)  评论:(0)  加入收藏
Tasker 是一款适用于 Android 设备的高级自动化应用,它可以通过脚本让重复性的操作自动运行,提高效率。 不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖,自...【详细内容】
2021-12-15  ITBang    Tags:抖音防烧屏   点击:(25)  评论:(0)  加入收藏
11 月 23 日,Rust Moderation Team(审核团队)在 GitHub 上发布了辞职公告,即刻生效。根据公告,审核团队集体辞职是为了抗议 Rust 核心团队(Core team)在执行社区行为准则和标准上...【详细内容】
2021-12-15  InfoQ    Tags:Rust   点击:(25)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条