Python构建代理池，突破IP的封锁爬取海量数据

时间：2021-08-17 09:44:45 来源：作者：一只编程侠

今天带大家使用爬虫来获取免费的ip。

1. 打开网站首页，可以看到总共有十页数据，总共100条ip记录。咱们的目的很简单，就是要这100条ip和对应端口号。完了我们再去筛选那些ip是可用的。

http://www.ip3366.NET/?stype=1&page=1

2. 我们打开浏览器模式模式分析页面看到这些ip信息都位于tr标签内，所以我么可以使用xpath来获取这些信息。

#获取当前页面10个ip数据
ips = selector.xpath('//*[@id="list"]/table/tbody/tr')
print(len(ips))
'''
10
'''

3. 获取到当前页面所有ip信息之后我们就可以使用for循环获取tr标签内部具体的ip和端口号。

# 获取端口和IP
for ip in ips:
 ip_num = ip.xpath('td[1]/text()').get() # ip
 port_num = ip.xpath('td[2]/text()').get() # port
 print(ip_num, port_num)
'''
49.70.151.180 3256
49.87.44.221 9999
42.177.142.239 9999
42.177.141.141 9999
42.176.134.43 9999
42.176.134.212 9999
49.71.142.114 9999
49.87.221.46 9999
49.87.221.120 9999
49.87.221.61 9999
'''

4. 接下来就使用for循环获取十个页面的100条数据。

for page in range(1, 10+1):
 print(f'-------正在爬取第{page}页数据-------')
 url = f'http://www.ip3366.net/?stype=1&page={page}'

5. 测试可用性，现在所有的ip都已经获取到了，能不能用还是未知数，所以我们试着有这些ip登陆一下百度页面，检测其可用性。

for ip in ip_list:
 try:
 response = requests.get(url='https://www.baidu.com', proxies=ip, timeout=2)
 if response.status_code == 200:
 use_proxy.Append(ip)
 except Exception as e:
 print(f'当前为第{count}个代理ip:', ip, '请求超时, 检测不合格!!!')
 else:
 print(f'当前为第{count}个代理ip:', ip, '检测通过')

检测结果如下：

因为这些代理每小时都在更新，所以没事多跑两遍程序，总会获取到你想的ip的。

Tags：Python构建代理池点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Python构建代理池，突破IP的封锁爬取海量数据

今天带大家使用爬虫来获取免费的ip。1. 打开网站首页，可以看到总共有十页数据，总共100条ip记录。咱们的目的很简单，就是要这100条ip和对应端口号。完了我们再去筛选那些ip是可...【详细内容】

2021-08-17　　Tags: Python构建代理池点击:(123)　　评论:(0)　　加入收藏

▌简易百科推荐

什么是Web3.0，与当下Web有什么区别，在未来真的能实现吗？

近几年 Web3 被炒得火热，但是大部分人可能还不清楚什么是 Web3，今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么？与我们熟知的 Web1 和 Web2 又有什么区别呢？web3.0什么是...【详细内容】

2022-07-15　　编程狮W3Cschool　　　　Tags:Web3.0 　点击:(2)　　评论:(0)　　加入收藏

手机Python编程神器——AidLearning

1、让我们一起来看下吧，直接上图。第一眼看到是不是觉得很高逼格，暗黑画风，这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统，而且还包含了许多非常强大...【详细内容】

2022-07-15　　IT智能化专栏　　　　Tags:AidLearning 　点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心！一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放 ...【详细内容】

2022-07-14　　菜鸟程序猿　　　　Tags:Python 　点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接，废话不多说咱们直接进入主题吧。一、什么是 PyMySQL？PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，P...【详细内容】

2022-07-11　　测试架构师百里　　　　Tags:python 　点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

aiohttp什么是 aiohttp？一个异步的 HTTP 客户端\服务端框架，基于 asyncio 的异步模块。可用于实现异步爬虫，更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】

2022-07-11　　VT漫步　　　　Tags:aiohttp 　点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中，比如爬虫，有的线程负责爬取数据，有的线程负责对爬取到的数据做处理（清洗、分类和入库）。假如他们是直接交互的，...【详细内容】

2022-07-06　　VT漫步　　　　Tags:Python Queue 　点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

继承：是面向对象编程最重要的特性之一，例如，我们每个人都从祖辈和父母那里继承了一些体貌特征，但每个人却又不同于父母，有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】

2022-07-06　　至尊小狸子　　　　Tags:python 　点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

点击上方头像关注我，每周上午 09:00准时推送，每月不定期赠送技术书籍。本文1553字，阅读约需4分钟 Hi，大家好，我是CoCo。在上一篇Python自动化测试系列文章：Python自动化测试之P...【详细内容】

2022-07-05　　CoCo的软件测试小栈　　　　Tags:Python 　点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

第一种方式：res = requests.get(url, params=data, headers = headers)第二种方式：res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】

2022-07-05　　独钓寒江雪之IT　　　　Tags:Python request 　点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

什么是python类的多态python的多态，可以为不同的类实例，或者说不同的数据处理方式，提供统一的接口。用比喻的方式理解python类的多态比如，同一个苹果（统一的接口）在孩子的眼里（类实...【详细内容】

2022-07-04　　写小说的程序员　　　　Tags:python类　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

一文搞懂响应式编程	Android开发组件化与
最流行的 .NET 反编译	MyBatis源码解读 \| 使
mysql数据库中的my.in	女生，人生第一支大牌口
防晒不分男女！防晒帽同	手表鉴定 \| 一眼看真