您当前的位置：首页 > 电脑百科 > 程序开发 > 语言 > Python

Python爬虫常用的库，这些你都用过吗？

时间：2023-10-21 12:50:23 来源：微信公众号作者：涛哥聊Python

+ 加入收藏

在信息时代，数据是无处不在的宝藏。从网页内容、社交媒体帖子到在线商店的产品信息，互联网上存在着大量的数据等待被收集和分析。

Python/ target=_blank class=infotextkey>Python爬虫是一种强大的工具，用于从互联网上获取和提取数据。

一、Requests - 构建HTTP请求

Requests库是Python中用于发起HTTP请求的强大工具。提供了简洁的API，使得与Web服务器进行通信变得非常容易。

官网地址：https://docs.python-requests.org/en/latest/

Github地址：https://github.com/psf/requests

示例代码：获取网页内容

import requests

# 发送GET请求获取网页内容
response = requests.get("https://www.example.com")

# 打印响应内容
print(response.text)

二、Beautiful Soup - 解析html和XML

获取网页内容后，通常需要从HTML或XML文档中提取数据。

Beautiful Soup是一个强大的HTML和XML解析库，使解析和提取网页数据变得非常简单。

官网地址：https://www.crummy.com/software/BeautifulSoup/

GitHub地址：https://github.com/wention/BeautifulSoup4

示例代码：提取网页标题

from bs4 import BeautifulSoup
import requests

# 发送GET请求获取网页内容
response = requests.get("https://www.example.com")

# 创建Beautiful Soup对象并解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 提取网页标题
title = soup.title.string
print("网页标题:", title)

三、Scrapy - 构建爬虫

当需要构建大规模的爬虫项目时，Scrapy是一个非常有用的工具。

它是一个高级的网络爬虫框架，具有强大的功能和灵活性，用于构建和管理爬虫项目。

官网地址：https://scrapy.org/

GitHub地址：https://github.com/scrapy/scrapy

示例代码：创建爬虫项目

# 创建新的Scrapy项目
scrapy startproject myproject

# 创建爬虫
cd myproject
scrapy genspider myspider example.com

四、Selenium - 自动化浏览器操作

有些网站是使用JAVAScript进行内容渲染，这时候需要模拟用户操作来获取数据。

Selenium是一个自动化浏览器操作库，用于控制浏览器并执行操作。

官网地址：https://www.selenium.dev/documentation/en/

GitHub地址：https://github.com/SeleniumHQ/selenium

示例代码：模拟登录

from selenium import webdriver

# 创建一个Chrome浏览器实例
driver = webdriver.Chrome()

# 打开登录页面
driver.get("https://www.example.com/login")

# 输入用户名和密码并点击登录按钮
username = driver.find_element_by_id("username")
password = driver.find_element_by_id("password")
login_button = driver.find_element_by_id("login-button")

username.send_keys("your_username")
password.send_keys("your_password")
login_button.click()

# 等待登录完成后获取数据
# ...

# 关闭浏览器
driver.quit()

五、Scrapy-Selector - 数据提取工具

在Scrapy中，Scrapy-Selector是一个用于选择和提取网页内容的工具，它支持XPath和css选择器。

GitHub地址：https://github.com/scrapy/selectorlib

示例代码：使用XPath提取数据

from scrapy.selector import Selector

# 网页内容
html = """
<html>
    <body>
        <div id="content">
            <h1>Hello, World!</h1>
            <p>This is a sample paragraph.</p>
        </div>
    </body>
</html>
"""

# 创建Selector对象
selector = Selector(text=html)

# 使用XPath提取数据
title = selector.xpath("//h1/text()").get()
paragraph = selector.xpath("//p/text()").get()

print("标题:", title)
print("段落:", paragraph)

六、PyQuery - 类似于jQuery的解析库

PyQuery是一个类似于jQuery的库，用于解析和操作HTML文档。提供了一种简洁的方式来选择和操作HTML元素。

GitHub地址：https://github.com/gawel/pyquery

示例代码：选择元素和提取文本

from pyquery import PyQuery as pq

# 网页内容
html = """
<html>
    <body>
        <div id="content">
            <h1>Hello, World!</h1>
            <p>This is a sample paragraph.</p>
        </div>
    </body>
</html>
"""

# 创建PyQuery对象
doc = pq(html)

# 选择元素并

提取文本
title = doc('h1').text()
paragraph = doc('p').text()

print("标题:", title)
print("段落:", paragraph)

七、RoboBrowser - 自动化浏览器操作

RoboBrowser是一个用于自动化浏览器操作的库，基于Beautiful Soup和requests库。

它可以用于处理Web表单、提交数据和执行登录等任务。

GitHub地址：https://github.com/jmcarp/robobrowser

示例代码：填写表单并提交

from robobrowser import RoboBrowser

# 创建RoboBrowser对象
browser = RoboBrowser(parser="html.parser")

# 打开登录页面
browser.open("https://www.example.com/login")

# 查找登录表单
form = browser.get_form(action="/login")

# 填写用户名和密码
form['username'].value = "your_username"
form['password'].value = "your_password"

# 提交表单
browser.submit_form(form)

# 获取登录后的页面内容
# ...

八、Requests-HTML - 网页解析

Requests-HTML是基于requests库的HTML解析库，允许轻松地从HTML文档中提取数据。支持XPath和CSS选择器，能够以一种简单的方式进行网页解析。

GitHub地址：https://github.com/psf/requests-html

示例代码：使用CSS选择器提取数据

from requests_html import HTMLSession

# 创建HTMLSession对象
session = HTMLSession()

# 发送GET请求获取网页内容
response = session.get("https://www.example.com")

# 使用CSS选择器提取数据
title = response.html.find("h1", first=True).text
paragraph = response.html.find("p", first=True).text

print("标题:", title)
print("段落:", paragraph)

九、MechanicalSoup - 自动化浏览器操作

MechanicalSoup是一个用于自动化浏览器操作的库，基于Beautiful Soup和requests库。

它可以用于处理Web表单、提交数据和执行登录等任务。

GitHub地址：https://github.com/MechanicalSoup/MechanicalSoup

示例代码：模拟登录

import mechanicalsoup

# 创建Browser对象
browser = mechanicalsoup.StatefulBrowser()

# 打开登录页面
browser.open("https://www.example.com/login")

# 填写用户名和密码
browser.select_form()
browser["username"] = "your_username"
browser["password"] = "your_password"

# 提交表单
browser.submit_selected()

# 获取登录后的页面内容
# ...

总结

这些库是Python爬虫的有力工具，可以根据你的需求选择和组合使用它们。

无论你是想进行简单的网页内容提取还是构建复杂的网络爬虫，这些库都能满足你的需求。

注意，在进行爬虫活动时，一定要遵守网站的使用政策和法律法规，以确保合法合规。

Tags：Python爬虫点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

学透这10个Python爬虫框架，轻松爬取一切数据

什么是Python爬虫框架？就像超市里有卖半成品的菜一样，Python爬虫工具也有半成品，就是Python爬虫框架。就是把一些常见的爬虫功能的代码先写好，然后留下一些借口。当我们在做不同...【详细内容】

2023-12-08　　Search: Python爬虫点击:(231)　　评论:(0)　　加入收藏

移动端Python爬虫实战

移动端Python爬虫实战Python爬虫是指利用Python编程语言编写的程序，用于自动从互联网上获取信息。通过模拟人的行为，Python爬虫可以访问网页、抓取数据，并将数据保存到本地或...【详细内容】

2023-11-25　　Search: Python爬虫点击:(211)　　评论:(0)　　加入收藏

Python爬虫神器：Beautiful Soup指南，轻松解析网页数据！

Beautiful Soup（简称BS4）是一种强大而灵活的HTML和XML解析库，广泛用于Python爬虫和数据采集中。这篇文章介绍 Beautiful Soup的功能和用法，并提供示例代码，帮助你更好地理解和应...【详细内容】