Python网络爬虫：Beautiful Soup库入门

时间：2019-09-23 13:28:34 来源：作者：

Beautiful Soup库安装

pip install beautifulsoup4

测试：

import requests
r = requests.get("http://Python/ target=_blank class=infotextkey>Python123.io/ws/demo.html")
demo = r.text
form bs4 import BeautifulSoup #从bs4中引入BeautifulSoup类
soup = BeautifulSoup(demo, "html.parser")

Beautiful Soup库是解析、遍历、维护“标签树”的功能库

Beautiful Soup库的基本元素

Beautiful Soup库的引用

Beautiful Soup库，也叫beautifulsoup4或bs4.

from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")

Beautiful Soup类的基本元素

基于bs4库的HTML内容遍历方法

下行遍历

#遍历儿子节点
for child in soup.body.children
	print(child)
#遍历子孙节点
for child in soup.body.descendants
	print(child)

上行遍历

soup = BeautifulSoup(demo,"html.parser")
for parent in soup.a.parents:
 if parent is None:
 print(parent)
 else:
 print(parent.name)
#输出结果
#p
#body
#html
#[document]

平行遍历

平行遍历发生在同一个父节点下的各节点间。

下一个获取的可能是字符串类型，不一定是下一个节点。

#遍历后续节点
for sibling in soup.a.next_siblings
	print(sibling)
#遍历前续节点
for sibling in soup.a.previous_siblings
	print(sibling)

基于bs4库的HTML格式化和编码

格式化方法：.prettify()

soup = BeautifulSoup(demo,"html.parser")
print(soup.a.prettify())

编码：默认utf-8

soup = BeautifulSoup("<p>中文</p>","html.parser")
soup.p.string
#'中文'
print(soup.p.prettify())
#<p>
# 中文
#</p>

3.信息组织与提取

信息标记的三种形式

标记后的信息可形成信息组织结构，增加了信息的维度；

标记后的信息可用于通信、存储和展示；

标记的结构和信息一样具有重要价值；

标记后的信息有利于程序的理解和运用。

XML: eXtensible Matkup Language

最早的通用信息标记语言，可扩展性好，但繁琐。

用于Inte.NET上的信息交互和传递。

<name>...</name>
<name/>
<!-- -->

JSON: JAVAScript Object Notation

信息有类型，适合程序处理(js)，较XML简洁。

用于移动应用云端和节点的信息通信，无注释。

#有类型的键值对表示信息的标记形式
"key":"value"
"key":["value1","value2"]
"key":{"subkey":"subvalue"}

YAMl: YAML AIn’t Markup Language

信息无类型，文本信息比例最高，可读性好。

用于各类系统的配置文件，有注释易读。

#无类型的键值对表示信息的标记形式
key : "value"
key : #comment
-value1
-value2
key :
	subkey : subvalue

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息。

XML JSON YAML

需要标记解析器，例如bs4库的标签树遍历。

优点：信息解析准确

缺点：提取过程繁琐，过程慢

方法二：无视标记形式，直接搜索关键信息

搜索

对信息的文本查找函数即可。

优点：提取过程简洁，速度较快

缺点：提取过程准确性与信息内容相关

融合方法：结合形式解析与搜索方法,提取关键信息

XML JSON YAML 搜索

需要标记解析器及文本查找函数。

实例：提取HTML中所有URL链接

思路：

1、搜索到所有标签

2、解析标签格式，提取href后的链接内容

form bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")
for link in soup.find_all('a'):
	print(link.get('href'))

基于bs4库的HTML内容查找方法

简写形式：

(…) 等价于

.find_all(…)

#name:对标签名称的检索字符串
soup.find_all('a')
soup.find_all(['a', 'b'])
soup.find_all(True) #返回soup的所有标签信息
for tag in soup.find_all(True):
 print(tag.name) #html head title body p b p a a
#输出所有b开头的标签，包括b和body 
#引入正则表达式库
import re
for tag in soup.find_all(re.compile('b')):
 print(tag.name) #body b
#attrs:对标签属性值的检索字符串，可标注属性检索
soup.find_all('p', 'course')
soup.find_all(id='link1')
import re 
soup.find_all(id=re.compile('link'))
#recursive:是否对子孙全部检索，默认为True
soup.find_all('p', recursive = False)
#string:<>...</>字符串区域的检索字符串
soup.find_all(string = "Basic Python")
import re
soup.find_all(string = re.compile('Python'))
#简写形式：soup(..) = soup.find_all(..)

拓展方法：参数同.find_all()

4.信息提取实例

中国大学排名定向爬虫

功能描述：

输入：大学排名URL链接

输出：大学排名信息的屏幕输出（排名，大学名称，总分）

技术路线：requests-bs4

定向爬虫：仅对输入URL进行爬取，不拓展爬取

程序的结构设计：

步骤1：从网络上获取大学排名网页内容

getHTMLText()

步骤2：提取网页内容中信息到合适的数据结构

fillUnivList()

步骤3：利用数据结构展示并输出结果

printUnivList()

初步代码编写

import requests
from bs4 import BeautifulSoup
import bs4
'''
这是小编准备的python爬虫学习资料，加群：821460695 即可免费获取！
'''
def getHTMLText(url):
 try:
 r = requests.get(url, timeout= 30)
 r.raise_for_status()
 r.encoding = r.Apparent_encoding
 return r.text
 except:
 return ""
def fillUnivList(ulist, html):
 soup = BeautifulSoup(html, "html.parser")
 for tr in soup.find('tbody').children:
 if isinstance(tr, bs4.element.Tag):
 tds = tr('td')
 ulist.append([tds[0].string, tds[1].string, tds[3].string])
def printUnivList(ulist, num):
 print("{:^10}t{:^6}t{:^10}".format("排名", "学校名称", "分数"))
 for i in range(num):
 u = ulist[i]
 print("{:^10}t{:^6}t{:^10}".format(u[0], u[1], u[2]))
def main():
 uinfo = []
 url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
 html = getHTMLText(url)
 fillUnivList(uinfo,html)
 printUnivList(uinfo,20) #20 univs
main()

中文输出对齐问题

当输出中文的宽度不够时，系统会采用西文字符填充，导致对齐出现问题。

可以使用中文空格chr(12288)填充解决。

<填充> ：用于填充的单个字符

<对齐> ：<左对齐 >右对齐 ^居中对齐

<宽度> ：槽的设定输出宽度

, ：数字的千位分隔符适用于整数和浮点数

<精度> ：浮点数小数部分的精度或字符串的最大输出长度

<类型> ：整数类型b,c,d,o,x,X浮点数类型e,E,f,%

代码优化

import requests
from bs4 import BeautifulSoup
import bs4
'''
这是小编准备的python爬虫学习资料，加群：821460695 即可免费获取！
'''
def getHTMLText(url):
 try:
 r = requests.get(url, timeout= 30)
 r.raise_for_status()
 r.encoding = r.apparent_encoding
 return r.text
 except:
 return ""
def fillUnivList(ulist, html):
 soup = BeautifulSoup(html, "html.parser")
 for tr in soup.find('tbody').children:
 if isinstance(tr, bs4.element.Tag):
 tds = tr('td')
 ulist.append([tds[0].string, tds[1].string, tds[3].string])
def printUnivList(ulist, num):
 tplt = "{0:^10}t{1:{3}^10}t{2:^10}"
 print(tplt.format("排名", "学校名称", "分数",chr(12288)))
 for i in range(num):
 u = ulist[i]
 print(tplt.format(u[0], u[1], u[2],chr(12288)))
def main():
 uinfo = []
 url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
 html = getHTMLText(url)
 fillUnivList(uinfo,html)
 printUnivList(uinfo,20) #20 univs
main()

Tags：Python Beautiful Soup 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Python网络爬虫：Beautiful Soup库入门

Beautiful Soup库安装pip install beautifulsoup4测试：import requestsr = requests.get("http://python123.io/ws/demo.html")demo = r.textform bs4 import BeautifulSoup...【详细内容】

2019-09-23　　Search: Python Beautiful Soup 点击:(750)　　评论:(0)　　加入收藏

▌简易百科推荐

一篇文章教会你使用Python中三种简单的函数

所谓函数，就是指：把某些特定功能的代码组成为一个整体，这个整体就叫做函数。一、函数简介所谓函数，就是指：把某些特定功能的代码组成为一个整体，这个整体就叫做函数。二、函数定义...【详细内容】

2024-04-11　　Go语言进阶学习　　微信公众号　　Tags:Python 　点击:(7)　　评论:(0)　　加入收藏

一篇文章带你了解Python的分布式进程接口

在Thread和Process中，应当优选Process，因为Process更稳定，而且，Process可以分布到多台机器上，而Thread最多只能分布到同一台机器的多个CPU上。一、前言在Thread和Process中，应当优...【详细内容】

2024-04-11　　Go语言进阶学习　　　　Tags:Python 　点击:(6)　　评论:(0)　　加入收藏

Python 可视化：Plotly 库使用基础

当使用 Plotly 进行数据可视化时，我们可以通过以下示例展示多种绘图方法，每个示例都会有详细的注释和说明。1.创建折线图import plotly.graph_objects as go# 示例1: 创建简单...【详细内容】

2024-04-01　　Python技术　　　　Tags:Python 　点击:(10)　　评论:(0)　　加入收藏

Python 办公神器：教你使用 Python 批量制作 PPT

介绍本文将介绍如何使用openpyxl和pptx库来批量制作PPT奖状。本文假设你已经安装了python和这两个库。本文的场景是：一名基层人员，要给一次比赛活动获奖的500名选手制作奖状，并...【详细内容】

2024-03-26　　Python技术　　微信公众号　　Tags:Python 　点击:(21)　　评论:(0)　　加入收藏

Python实现工厂模式、抽象工厂，单例模式

工厂模式是一种常见的设计模式，它可以帮助我们创建对象的过程更加灵活和可扩展。在Python中，我们可以使用函数和类来实现工厂模式。一、Python中实现工厂模式工厂模式是一种常...【详细内容】

2024-03-07　　Python都知道　　微信公众号　　Tags:Python 　点击:(35)　　评论:(0)　　加入收藏

不可不学的Python技巧：字典推导式使用全攻略

Python的字典推导式是一种优雅而强大的工具，用于创建字典（dict）。这种方法不仅代码更加简洁，而且执行效率高。无论你是Python新手还是有经验的开发者，掌握字典推导式都将是你技能...【详细内容】

2024-02-22　　子午Python　　微信公众号　　Tags:Python技巧　点击:(40)　　评论:(0)　　加入收藏

如何进行Python代码的代码重构和优化？

Python是一种高级编程语言，它具有简洁、易于理解和易于维护的特点。然而，代码重构和优化对于保持代码质量和性能至关重要。什么是代码重构？代码重构是指在不改变代码外部行为的...【详细内容】

2024-02-22　　编程技术汇　　　　Tags:Python代码　点击:(42)　　评论:(0)　　加入收藏

Python开发者必备的八个PyCharm插件

在编写代码的过程中，括号几乎无处不在，以至于有时我们会拼命辨别哪个闭合括号与哪个开头的括号相匹配。这款插件能帮助解决这个众所周知的问题。前言在PyCharm中浏览插件列表...【详细内容】

2024-01-26　　Python学研大本营　　微信公众号　　Tags:PyCharm插件　点击:(91)　　评论:(0)　　加入收藏

Python的Graphlib库，再也不用手敲图结构了

Python中的graphlib库是一个功能强大且易于使用的工具。graphlib提供了许多功能，可以帮助您创建、操作和分析图形对象。本文将介绍graphlib库的主要用法，并提供一些示例代码和...【详细内容】

2024-01-26　　科学随想录　　微信公众号　　Tags:Graphlib库　点击:(90)　　评论:(0)　　加入收藏

Python分布式爬虫打造搜索引擎

简单分布式爬虫结构主从模式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理，爬虫只需要从控制节点那里接收任务，并把新生成任务提交给控制节点就可以了，在这个...【详细内容】

2024-01-25　　大雷家吃饭　　　　Tags:Python 　点击:(61)　　评论:(0)　　加入收藏

推荐资讯

Meta如何将缓存一致性	兄弟，王者荣耀的段位排
雷军：10年编程路，给程序	5月新政策实施，电动车
新“国九条”，你真看懂	网友喊话刘强东开直播
4月央行缩量续做1000	知名早教机构跑路，背后