您当前的位置：首页 > 新闻 > 科技

干货-汇总156个Python网络爬虫资源大全-再也不用担心我的Python

时间：2020-03-14 14:49:07 来源：作者：

+ 加入收藏

网络相关

通用
urllib – 网络库(标准库)
requests – 网络库
grab – 网络库(基于pycurl)
pycurl – 网络库 (与 libcurl 绑定)
urllib3 – 具有线程安全连接池、文件psot支持、高可用的Python HTTP库
httplib2 – 网络库
RoboBrowser – 一个无需独立浏览器即可访问网页的简单、pythonic的库
MechanicalSoup – 能完成自动网站交互的Python库
mechanize – 有状态、可编程的网页浏览库。
socket – 底层网络接口(标准库)
Unirest for Python – 一套支持多种语言的轻量级HTTP库
hyper – Python HTTP/2客户端
PySocks – SocksiPy持续更新并维护的版本，指出bug修复和一些其他功能，可以作为socket模块的替代品
异步
treq – 基于twisted、与requests类似的API
aiohttp – asyncio的HTTP客户端/服务器 (PEP-3156)

网络爬虫框架

全能型爬虫
grab – 网络爬虫框架(基于pycurl/multicurl)
scrapy – 网络爬虫框架(基于twisted)
pyspider – 一个强力的爬虫系统
cola – 一个分布式爬虫框架
其他
portia – 基于Scrapy的可视化爬虫
restkit – Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目
demiurge – 基于PyQuery的微型爬虫框架

html/XML解析

通用
lxml – 高效的HTML/XML处理库。支持XPATH，用C语言写成
cssselect – 解析DOM树和css选择器
pyquery – 解析DOM树和jQuery选择器
BeautifulSoup – Python写成的低效HTML/XMl处理库
html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
feedparser – 解析RSS/ATOM信息流
MarkupSafe – Python的XML/HTML/XHTML安全转义字符串工具
xmltodict – 让你处理XML如同处理JSON一样
xhtml2pdf – HTML/CSS to PDF转化器
untangle – 将XML文档转化为Python项目以简化处理难度
hodor – 支持lxml and cssselect的配置驱动包装工具
清理
Bleach – 清理HTML (需求html5lib)
sanitize – 将混乱的数据世界恢复清楚

文本处理

解析及操作文本的库

通用
difflib – 差异化计算工具(Python标准库)
Levenshtein – 快速计算编辑距离及字符串相似度
fuzzywuzzy – 模糊字符串比匹配
esmre – 正则表达式加速器.
ftfy – 将Unicode文本自动整理减少碎片化
转换
unidecode – Unicode转化为ASCII文本
字符编码
uniout – 将转移字符串输出为可读形式
chardet – Python 2/3兼容字符编码检测器
xpinyin – 讲汉字转为拼音的库
pangu.py – CJK及字母数字文本间距格式化
Slug化
awesome-slugify – 可保留Unicode的Python slugify库
python-slugify – 讲Unicode转为ASCII的Python slugify库
unicode-slugify – unicode slugs生成工具
pytils – 处理俄语字符串的小工具(包含pytils.translit.slugify)
通用解析器
PLY – Python lex和yacc解析工具
pyparsing – 用于生成解析器的通用框架
人名
python-nameparser – 姓名解析组件
电话号码
phonenumbers – 处理、格式化、存储、验证全球电话号码
用户代理字符串
python-user-agents – 浏览器用户代理解析器
HTTP Agent Parser – Python HTTP代理解析器
fake-useragent – 基于全球浏览器统计的Python用户代理欺骗器
user_agent – 用户代理数据生成器

特殊格式处理

处理特编辑特殊字符格式的库

通用
tablib – 处理XLS, CSV, JSON, YAML等表格数据的库
textract – 从任何文档中提取文本，支持word, PowerPoint, PDF等
messytables – 杂乱的表格数据解析
rows – 支持多种格式的通用且美观的表格数据处理器(现有CSV, HTML, XLS, TXT — 即将支持更多)
office
python-docx – 阅读，查询和修改Microsoft Word 2007/2008 docx文件
xlwt / xlrd – 从Excel读取及写入数据和格式化信息
XlsxWriter – 用于穿件Excel .xlsx文件的Python模块
xlwings – 一个BSD许可的库，是Excel与Python互相调用更加简单
openpyxl – 可读取、编辑Excel 2010xlsx/xlsm/xltx/xltm文件的库
Marmir – 提取Python数据结构并将其转化为表格的库
PDF
PDFMiner – 从PDF文档中提取信息的工具
PyPDF2 – 一个分割、合并、转换PDF文件的库
ReportLab – 可以快速创建大量PDF文档
pdftables – 从PDF文件中精准提取表格
Markdown
Python-Markdown – 一个用Python实现的John Gruber的Markdown
Mistune – 速度最快，功能全面的Markdown纯Python解析器
markdown2 – 一个完全用Python实现的快速的Markdown
YAML
PyYAML – 一个Python的YAML解析器
CSS
cssutils – 一个Python的CSS库
ATOM/RSS
feedparser – 通用的feed解析器
SQL
sqlparse – 一个无验证的SQL语句分析器
HTTP
http-parser – C语言实现的HTTP请求/响应消息解析器
Microformats
opengraph – 一个用来解析Open Graph协议标签的Python模块
可移植的执行体
pefile – 一个多平台的用于解析和处理可移植执行体（即PE）文件的模块
PSD
psd-tools – 将Adobe Photoshop PSD（即PE）文件读取到Python数据结构

自然语言处理

自然语言处理库

NLTK – Python自然语言处理领先者
Pattern – Python的网络挖掘模块。他有自然语言处理工具，机器学习以及其它
TextBlob – 为深入处理自然语言的项目提供API，参考了NLTK及其他
jieba – 中文分词
SnowNLP – 汉字文本处理库
loso – 中文分词库
genius -基于条件随机域的中文分词
langid.py – 独立的语言识别系统
Korean – 韩文形态库
pymorphy2 – 俄语形态分析器（词性标注+词形变化引擎）
PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库
langdetect – Python的谷歌语言检测库端口

浏览器自动化与仿真

浏览器
selenium – 自动化真实浏览器(Chrome, Firefox, Opera, IE)
Ghost.py – QtWebKit封装(需求PyQT)
Spynner – 具备AJAX支持的程序化网页浏览模块
Splinter – 通用API浏览器模拟器（selenium web驱动，Django客户端，Zope）
Headless工具
xvfbwrApper – 用于在X虚拟帧缓冲区（Xvfb）中运行显示的Python包装器

多进程并发

threading – Python标准库的多线程运行。因为python GIL限制，对于I/O密集型任务很有效，对于CPU绑定的任务没用
multiprocessing – 多进程标准库
celery – 基于分布式消息传递的异步任务队列/作业队列
concurrent-futures – concurrent.futures模块提供用于异步执行callable的高级接口

异步

异步网络编程库

asyncio – 异步I/O，时间循环，协同程序和任务(Python 3.4以上版本的Python标准库)
Twisted – 基于事件驱动的网络引擎框架
Tornado – 一个Web框架及异步网络库
pulsar – Python事件驱动的并发框架
diesel – Python的基于Greenlet的I/O框架
gevent – 一个基于协同程序的Python网络库，使用greenlet
eventlet – 有WSGI支持的异步框架
Tomorrow – 异步代码的魔法

队列

celery – 基于分布式消息传递的异步任务队列/作业队列
huey – 小型多线程任务队列
mrq – Mr. Queue – 使用redis & Gevent 的Python分布式工作任务队列
RQ – 基于Redis的轻量级任务队列管理器
simpleq – 一个简单的，可无限扩展，基于Amazon SQS的队列
python-gearman – Gearman的Python API

云计算

picloud – 在云端执行Python
dominoup.com – 在云端执行R, Python及matlab代码

电子邮件

电子邮件处理库

flanker – 电子邮件及MIME处理库
Talon – Mailgun库用于提取消息的报价和签名

URL和网络地址操作

URL和网络地址操作库

URL
furl – 一个小的Python库，使得操纵URL简单化
purl – 一个简单的不可改变的URL以及一个干净的用于调试和操作的API
urllib.parse – 用于打破统一资源定位器（URL）的字符串在组件（寻址方案，网络位置，路径等）之间的隔断，为了结合组件到一个URL字符串，并将“相对URL”转化为一个绝对URL，称之为“基本URL”（标准库）
tldextract – 使用公共后缀列表从URL的注册域和子域中准确分离TLD
网络地址
netaddr – 用于显示和操纵网络地址的Python库

网页内容提取

网页内容提取库

HTML页面的文本和元数据
newspaper – 用Python进行新闻提取、文章提取和内容策展
html2text – 将HTML转为Markdown格式文本
python-goose – HTML内容/文章提取器
lassie – 人性化的网页内容检索工具
micawber – 一个从网址中提取丰富内容的小型库
sumy -一个自动汇总文本文件和HTML网页的模块
Haul – 一个可扩展的图像爬虫
python-readability – arc90 readability工具的快速Python接口
scrapely – 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例，scrapely为所有类似的网页构建一个分析器
libextract – 从网站提取数据
视频
youtube-dl – 一个从YouTube下载视频的小型命令行工具
you-get – Python3写成的YouTube/Youku/Niconico视频下载工具
Wiki
WikiTeam – 下载并保存wkiks的工具

WebSocket

用于WebSocket的库

Crossbar – 开源的应用消息传递路由器（Python实现的用于Autobahn的WebSocket和WAMP）
AutobahnPython – 提供了WebSocket协议和WAMP协议的Python实现并且开源
WebSocket-for-Python – Python 2和3以及PyPy的WebSocket客户端和服务器库

DNS解析

dnsyo – 在全球超过1500个的DNS服务器上检查你的DNS
pycares – ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库

计算机视觉

OpenCV – 开源计算机视觉库
SimpleCV – 用于照相机、图像处理、特征提取、格式转换的简介，可读性强的接口（基于OpenCV）
mahotas – 快速计算机图像处理算法（完全使用 C++ 实现），完全基于 numpy 的数组作为它的数据类型

代理服务器

shadowsocks – 一个快速隧道代理，可帮你穿透防火墙（支持TCP和UDP，TFO，多用户和平滑重启，目的IP黑名单）
tproxy – tproxy是一个简单的TCP路由代理（第7层），基于Gevent，用Python进行配置

杂项

user_agent – 此模块用于生成随机，有效的Web导航器的配置和用户代理HTTP header

其他

awesome-python
pycrumbs
python-github-projects
python_reference
pythonidae

注释：此文有自己写的，网络查找，同事一起共同汇总的

小编寄语

最后小编帮助大家整理了一套python教程，下面展示了部分，希望也能帮助对编程感兴趣，想做数据分析，人工智能、爬虫或者希望从事编程开发的小伙伴，毕竟python工资也还可以，如果能帮到你请点赞、点赞、点赞哦~~

Tags：网络爬虫点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

一文弄清Python网络爬虫解析库！内含多个实例讲解

在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后，可能大家还对超长的正则表达式记忆犹新，设想如果想要匹配的条目更加多那表达式长度将会更加恐怖，这显然...【详细内容】

2021-04-12　　Tags: 网络爬虫点击:(262)　　评论:(0)　　加入收藏

使用布隆过滤器用于Python网络爬虫URL去重

布隆过滤器（BloomFilter）类似于hash set，用来判断元素是否在集合中。但是与hash set区别是：布隆过滤器不需要存储元素值，就能判断元素是否在集合中。说一下布隆过滤器优缺点：优点...【详细内容】

2020-09-29　　Tags: 网络爬虫点击:(121)　　评论:(0)　　加入收藏

Python网络爬虫数据提取神器 Selector 的用法

我们先以一个最简单的实例来了解模拟登录后页面的抓取过程，其原理在于模拟登录后 Cookies 的维护。1. 本节目标私信小编01即可获取大量的Python学习资料本节将讲解以 GitHub...【详细内容】

2020-09-27　　Tags: 网络爬虫点击:(84)　　评论:(0)　　加入收藏

干货-汇总156个Python网络爬虫资源大全-再也不用担心我的Python

网络相关通用 urllib – 网络库(标准库) requests – 网络库 grab – 网络库(基于pycurl) pycurl – 网络库 (与 libcurl 绑定) urllib3 – 具有...【详细内容】

2020-03-14　　Tags: 网络爬虫点击:(94)　　评论:(0)　　加入收藏

JAVA网络编程模拟浏览器获取html源代码（网络爬虫）

网络爬虫基本思路基本思路：由关键字指定的url把所有相关的html页面全抓下来（html即为字符串），然后解析html文本（通常是正则表达式或者现成工具包如jsoup），提取文本信息，然后把文本信...【详细内容】

2020-03-12　　Tags: 网络爬虫点击:(80)　　评论:(0)　　加入收藏

写网络爬虫程序的四种难度

写爬虫，是一个非常考验综合实力的活儿。有时候，你轻而易举地就抓取到了想要的数据；有时候，你费尽心思却毫无所获。好多Python爬虫的入门教程都是一行代码就把你骗上了“贼船”，等...【详细内容】

2020-03-12　　Tags: 网络爬虫点击:(110)　　评论:(0)　　加入收藏

花了三天时间，终于把网络爬虫和正则表达式做了个总结

以前在学校做科研都是直接利用网上共享的一些数据，就像我们经常说的dataset、beachmark等等。但是，对于实际的工业需求来说，爬取网络的数据是必须的并且是首要的。最近在国内一...【详细内容】

2019-11-26　　Tags: 网络爬虫点击:(71)　　评论:(0)　　加入收藏

网络爬虫是什么？对于手机安全问题，该怎么防御

很多程序员都很清楚一个专属名词，那就是——爬虫，而大多数网友对于这个词语还比较陌生，属于新鲜的词汇，但是随着互联网的发展，这种网络爬虫其实和我们日常生活息息相关...【详细内容】

2019-10-28　　Tags: 网络爬虫点击:(161)　　评论:(0)　　加入收藏

Python 网络爬虫的常用库汇总

爬虫的编程语言有不少,但 Python 绝对是其中的主流之一。下面就为大家介绍下 Python 在编写网络爬虫常常用到的一些库。请求库：实现 HTTP 请求操作 urllib：一系列用于操作URL...【详细内容】

2019-09-26　　Tags: 网络爬虫点击:(118)　　评论:(0)　　加入收藏

Python网络爬虫：Beautiful Soup库入门

Beautiful Soup库安装pip install beautifulsoup4测试：import requestsr = requests.get("http://python123.io/ws/demo.html")demo = r.textform bs4 import BeautifulSoup...【详细内容】

2019-09-23　　Tags: 网络爬虫点击:(140)　　评论:(0)　　加入收藏

▌简易百科推荐

数据安全步入法治化轨道（政策解读）

非法购买公民信息、开发人脸认证规避技术……今年年初，广东省公安厅网安部门侦破全国首例破解“青少年防沉迷系统”的新型网络犯罪案件，抓获犯罪嫌疑人13名，查处非...【详细内容】

2021-12-28　　　　人民日报客户端　　Tags:数据安全步　点击:(5)　　评论:(0)　　加入收藏

倒计时！企业QQ即将下架，社交QQ会被下架吗？

就在今天，腾讯方面宣布将在2022年1月31日下架企业QQ和营销QQ，其实这一消息的降临并不让笔者意外，因为早在今年的10月28日20点之后，企业QQ和营销QQ就被停止了续费服务。相信很多...【详细内容】

2021-12-27　　科技探险家　　　　Tags:企业QQ 　点击:(21)　　评论:(0)　　加入收藏

电竞产业快速扩张

日前，上海交通大学发布《全球电竞之都评价报告》，对全球15个致力于发展电竞之都的城市进行评价，上海作为中国城市电竞发展的排头兵，其拥有众多优质电竞企业及完整产业集群，因此排...【详细内容】

2021-12-27　　经济日报　　　　Tags:电竞　点击:(3)　　评论:(0)　　加入收藏

微博整治：这种低俗头像，别再用了

为优化网络氛围环境，微博又开始整顿用户信息了。本月月初，微博官方发布公告，要求昵称中带有如“二货”“SB”“瘪三”“娘炮”等明显低俗或侮辱性词汇的用户尽快修改，否则将面临...【详细内容】

2021-12-24　　运了个营　　　　Tags:微博　点击:(10)　　评论:(0)　　加入收藏

Google OnHub路由器将于2022年底停止软件支持

昨日谷歌宣布，自2022年12月19日开始停止对OnHub的软件支持，OnHub路由器仍将提供Wi-Fi信号，但用户无法用谷歌Home应用程序管理它。无法更新Wi-Fi网络设置、添加额外的Wifi设备或...【详细内容】

2021-12-22　　雷峰网　　　　Tags:Google OnHub 　点击:(5)　　评论:(0)　　加入收藏

百度网盘青春版内测开启，iOS 端体验：不限速，支持导入原版文件

IT之家 12 月 20 日消息，百度网盘青春版 iOS 客户端今日晚间率先开启内测，安卓客户端将在稍后内测。使用苹果 iPhone 的IT之家小伙伴可以点此下载内测版，需要先下载 TestFlight...【详细内容】

2021-12-21　　IT之家　　　　Tags:百度网盘　点击:(10)　　评论:(0)　　加入收藏

滴滴司机注意！滴滴将调整拼车单

对于拼车单，是接还是不接，不少网约车司机表示很矛盾。接吧，钱少事多，常常跑了个寂寞，不接吧，车多客少，挑三拣四没饭吃。在平台大力推广拼车单之下，不少司机迫于生活压力，最终还是打...【详细内容】

2021-12-17　　网约车情报分享　　　　Tags:滴滴　点击:(9)　　评论:(0)　　加入收藏

饿了么短距离内预估配送时间不得低于30分钟，并试点推广智能头盔

蓝鲸TMT频道12月16日讯，据饿了么官方微信公众号，近日，在圆桌会上，蓝骑士与平台交流了配送安全问题。饿了么表示，线上将技术手段融入安全防护；线下将持续进行安全培训，并试点智能头...【详细内容】

2021-12-17　　　　金融界　　Tags:饿了么　点击:(24)　　评论:(0)　　加入收藏

GitHub 年度报告重磅发布

开源最前线（ID：OpenSourceTop）猿妹编译项目地址： https://github.com/restic/restic全球知名代码托管平台 GitHub 今天就重磅发布了今年的年度报告——《2021 年度 O...【详细内容】

2021-12-17　　Python部落　　　　Tags: 　点击:(9)　　评论:(0)　　加入收藏

《网络短视频内容审核标准细则》修订版发布

新京报快讯据中国网络视听节目服务协会网站消息，12月15日，中国网络视听节目服务协会发布了《网络短视频内容审核标准细则》（2021）。中国网络视听节目服务协会组织有关短视频平...【详细内容】

2021-12-16　　　　新京报　　Tags:短视频　点击:(11)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游