Python爬虫遇到验证码的几种处理方式，文章末尾有源码

时间：2020-10-29 09:31:54 来源：作者：

本篇文章介绍了爬虫中验证码的处理方式，并把这些功能封装起来，供我们使用，涉及到百度AIP的调用方式，以及一个最新的开源库muggle识别库的使用，欢迎阅读，点赞，收藏！

学会调用百度的aip接口：

1. 首先需要注册一个账号：

https://login.bce.baidu.com/

注册完成之后登入

2. 创建项目

在这些技术里面找到文字识别，然后点击创建一下项目

创建完成之后：

图片中 AppID , API key, Secret Key 这些待会是需要用的。

下一步可以查看官网文档，或者直接使用我写的代码

3. 安装一下依赖库 pip install baidu-aip

这只是一个接口，需要前面的一些设置。

 def return_ocr_by_baidu(self, test_image):
        """
        ps: 先在__init__  函数中完成你自己的baidu_aip 的一些参数设置

        这次测试使用 高精度版本测试
                    如果速度很慢 可以换回一般版本
                    self.client.basicGeneral(image, options)
                    相关参考网址:
                    https://cloud.baidu.com/doc/OCR/s/3k3h7yeqa
        :param test_image: 待测试的文件名称
        :return:  返回这个验证码的识别效果 如果错误  可以多次调用
        """
        image = self.return_image_content(test_image=self.return_path(test_image))

        # 调用通用文字识别（高精度版）
        # self.client.basicAccurate(image)

        # 如果有可选参数 相关参数可以在上面的网址里面找到
        options = {}
        options["detect_direction"] = "true"
        options["probability"] = "true"

        # 调用
        result = self.client.basicAccurate(image, options)
        result_s = result['words_result'][0]['words']
        # 不打印关闭
        print(result_s)
        if result_s:
            return result_s.strip()
        else:
            raise Exception("The result is None , try it !")

扩展百度的色情识别接口：

我们写代码肯定是要找点乐子的，不可能这么枯燥无味吧？

色情识别接口在内容审核中，找一下就可以了。

调用方式源码：

# -*- coding :  utf-8 -*-
# @Time      :  2020/10/22  17:30
# @author    :  沙漏在下雨
# @Software  :  PyCharm
# @CSDN      :  https://me.csdn.NET/qq_45906219

from aip import AipContentCensor
from ocr import MyOrc


class Auditing(MyOrc):
    """
    这是一个调用百度内容审核的aip接口
    主要用来审核一些色情 反恐 恶心 之类的东西
    网址:  https://ai.baidu.com/ai-doc/ANTIPORN/tk3h6xgkn
    """

    def __init__(self):
        # super().__init__()
        APP_ID = '填写你的ID'
        API_KEY = '填写你的KEY'
        SECRET_KEY = '填写你的SECRET_KEY'

        self.client = AipContentCensor(APP_ID, API_KEY, SECRET_KEY)

    def return_path(self, test_image):
        return super().return_path(test_image)

    def return_image_content(self, test_image):
        return super().return_image_content(test_image)

    def return_Content_by_baidu_of_image(self, test_image, mode=0):
        """
        继承ocr中的一些方法， 因为都是放一起的 少些一点代码
        内容审核: 关于图片中是否存在一些非法不良信息
        内容审核还可以实现文本审核 我觉得有点鸡肋  就没一起封装进去
        url: https://ai.baidu.com/ai-doc/ANTIPORN/Wk3h6xg56
        :param test_image: 待测试的图片 可以本地文件 也可以网址
        :param mode:  默认 = 0 表示 识别的本地文件   mode = 1 表示识别的图片网址连接
        :return: 返回识别结果
        """
        if mode == 0:
            filepath = self.return_image_content(self.return_path(test_image=test_image))
        elif mode == 1:
            filepath = test_image
        else:
            raise Exception("The mode is 0 or 1 but your mode is ", mode)
        # 调用色情识别接口
        result = self.client.imageCensorUserDefined(filepath)

        # """ 如果图片是url调用如下 """
        # result = self.client.imageCensorUserDefined('http://www.example.com/image.jpg')
        print(result)
        return result


a = Auditing()
a.return_Content_by_baidu_of_image("test_image/2.jpg", mode=0)

学会muggle_ocr 识别接口：

这个包是最近火起来的，使用起来很简单，没多少其他函数

安装 pip install muggle-ocr 这个下载有点慢最好使用手机热点目前镜像网站(清华/阿里) 还没有更新到这个包因为这个包是最新的一个ocr模型 12
调用接口

 def return_ocr_by_muggle(self, test_image, mode=1):
        """
            调用这个函数使用 muggle_ocr 来进行识别
            :param  test_image  待测试的文件名称 最好绝对路径
            :param  模型 mode = 0  即 ModelType.OCR 表示识别普通印刷文本
                  当 mode = 1 默认  即 ModelType.Captcha 表示识别4-6位简单英输验证码

            官方网站: https://pypi.org/project/muggle-ocr/
            :return: 返回这个验证码的识别结果 如果错误 可以多次调用
        """
        # 确定识别物品
        if mode == 1:
            sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.Captcha)
        elif mode == 0:
            sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.OCR)
        else:
            raise Exception("The mode is 0 or 1 , but your mode  == ", mode)

        filepath = self.return_path(test_image=test_image)

        with open(filepath, 'rb') as fr:
            captcha_bytes = fr.read()
            result = sdk.predict(image_bytes=captcha_bytes)
            # 不打印关闭
            print(result)
            return result.strip()

封装源码：

# -*- coding :  utf-8 -*-
# @Time      :  2020/10/22  14:12
# @author    :  沙漏在下雨
# @Software  :  PyCharm
# @CSDN      :  https://me.csdn.net/qq_45906219

import muggle_ocr
import os
from aip import AipOcr

"""
    PS: 这个作用主要是作了一个封装 把2个常用的图片/验证码识别方式合在一起 怎么用 取决于自己
    
    接口1: muggle_ocr 
          pip install muggle-ocr 这个下载有点慢 最好使用手机热点
          目前镜像网站(清华/阿里)  还没有更新到这个包 因为这个包是最新的一个ocr模型
          
    接口2: baidu-aip
          pip install baidu-aip
          这个知道的人应该很多很多， 但是我觉得还是muggle 这个新包猛的一比
          调用方式 可以参考官网文档: https://cloud.baidu.com/doc/OCR/index.html
          或者使用我如下的方式  都是ok的
    :param image_path  待识别的图片路径  如果目录很深 推荐使用绝对路径
    
"""


class MyOrc:
    def __init__(self):
        # 设置一些必要信息 使用自己百度aip的内容
        APP_ID = '你的ID'
        API_KEY = '你的KEY'
        SECRET_KEY = '你的SECRET_KEY'

        self.client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

    def return_path(self, test_image):

        """:return abs image_path"""
        # 确定路径
        if os.path.isabs(test_image):
            filepath = test_image
        else:
            filepath = os.path.abspath(test_image)
        return filepath

    def return_image_content(self, test_image):
        """:return the image content """
        with open(test_image, 'rb') as fr:
            return fr.read()

    def return_ocr_by_baidu(self, test_image):
        """
        ps: 先在__init__  函数中完成你自己的baidu_aip 的一些参数设置

        这次测试使用 高精度版本测试
                    如果速度很慢 可以换回一般版本
                    self.client.basicGeneral(image, options)
                    相关参考网址:
                    https://cloud.baidu.com/doc/OCR/s/3k3h7yeqa
        :param test_image: 待测试的文件名称
        :return:  返回这个验证码的识别效果 如果错误  可以多次调用
        """
        image = self.return_image_content(test_image=self.return_path(test_image))

        # 调用通用文字识别（高精度版）
        # self.client.basicAccurate(image)

        # 如果有可选参数 相关参数可以在上面的网址里面找到
        options = {}
        options["detect_direction"] = "true"
        options["probability"] = "true"

        # 调用
        result = self.client.basicAccurate(image, options)
        result_s = result['words_result'][0]['words']
        # 不打印关闭
        print(result_s)
        if result_s:
            return result_s.strip()
        else:
            raise Exception("The result is None , try it !")

    def return_ocr_by_muggle(self, test_image, mode=1):
        """
            调用这个函数使用 muggle_ocr 来进行识别
            :param  test_image  待测试的文件名称 最好绝对路径
            :param  模型 mode = 0  即 ModelType.OCR 表示识别普通印刷文本
                  当 mode = 1 默认  即 ModelType.Captcha 表示识别4-6位简单英输验证码

            官方网站: https://pypi.org/project/muggle-ocr/
            :return: 返回这个验证码的识别结果 如果错误 可以多次调用
        """
        # 确定识别物品
        if mode == 1:
            sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.Captcha)
        elif mode == 0:
            sdk = muggle_ocr.SDK(model_type=muggle_ocr.ModelType.OCR)
        else:
            raise Exception("The mode is 0 or 1 , but your mode  == ", mode)

        filepath = self.return_path(test_image=test_image)

        with open(filepath, 'rb') as fr:
            captcha_bytes = fr.read()
            result = sdk.predict(image_bytes=captcha_bytes)
            # 不打印关闭
            print(result)
            return result.strip()


# a = MyOrc()

# a.return_ocr_by_baidu(test_image='test_image/digit_img_1.png')

Tags：Python爬虫验证码点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Python爬虫遇到验证码的几种处理方式，文章末尾有源码

本篇文章介绍了爬虫中验证码的处理方式，并把这些功能封装起来，供我们使用，涉及到百度AIP的调用方式，以及一个最新的开源库muggle识别库的使用，欢迎阅读，点赞，收藏！目录：学会调用...【详细内容】

2020-10-29　　Tags: Python爬虫验证码点击:(148)　　评论:(0)　　加入收藏

▌简易百科推荐

什么是Web3.0，与当下Web有什么区别，在未来真的能实现吗？

近几年 Web3 被炒得火热，但是大部分人可能还不清楚什么是 Web3，今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么？与我们熟知的 Web1 和 Web2 又有什么区别呢？web3.0什么是...【详细内容】

2022-07-15　　编程狮W3Cschool　　　　Tags:Web3.0 　点击:(2)　　评论:(0)　　加入收藏

手机Python编程神器——AidLearning

1、让我们一起来看下吧，直接上图。第一眼看到是不是觉得很高逼格，暗黑画风，这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统，而且还包含了许多非常强大...【详细内容】

2022-07-15　　IT智能化专栏　　　　Tags:AidLearning 　点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心！一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放 ...【详细内容】

2022-07-14　　菜鸟程序猿　　　　Tags:Python 　点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接，废话不多说咱们直接进入主题吧。一、什么是 PyMySQL？PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，P...【详细内容】

2022-07-11　　测试架构师百里　　　　Tags:python 　点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

aiohttp什么是 aiohttp？一个异步的 HTTP 客户端\服务端框架，基于 asyncio 的异步模块。可用于实现异步爬虫，更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】

2022-07-11　　VT漫步　　　　Tags:aiohttp 　点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中，比如爬虫，有的线程负责爬取数据，有的线程负责对爬取到的数据做处理（清洗、分类和入库）。假如他们是直接交互的，...【详细内容】

2022-07-06　　VT漫步　　　　Tags:Python Queue 　点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

继承：是面向对象编程最重要的特性之一，例如，我们每个人都从祖辈和父母那里继承了一些体貌特征，但每个人却又不同于父母，有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】

2022-07-06　　至尊小狸子　　　　Tags:python 　点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

点击上方头像关注我，每周上午 09:00准时推送，每月不定期赠送技术书籍。本文1553字，阅读约需4分钟 Hi，大家好，我是CoCo。在上一篇Python自动化测试系列文章：Python自动化测试之P...【详细内容】

2022-07-05　　CoCo的软件测试小栈　　　　Tags:Python 　点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

第一种方式：res = requests.get(url, params=data, headers = headers)第二种方式：res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】

2022-07-05　　独钓寒江雪之IT　　　　Tags:Python request 　点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

什么是python类的多态python的多态，可以为不同的类实例，或者说不同的数据处理方式，提供统一的接口。用比喻的方式理解python类的多态比如，同一个苹果（统一的接口）在孩子的眼里（类实...【详细内容】

2022-07-04　　写小说的程序员　　　　Tags:python类　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

一文搞懂响应式编程	Android开发组件化与
最流行的 .NET 反编译	MyBatis源码解读 \| 使
mysql数据库中的my.in	女生，人生第一支大牌口
防晒不分男女！防晒帽同	手表鉴定 \| 一眼看真