整理的一些在使用Python中常用网页字符串处理方法

时间：2021-07-13 09:36:54 来源：作者：Fevtdvg

首先一些Python/ target=_blank class=infotextkey>Python字符串处理的简易常用的用法。

1.去掉重复空格

s = "hello   hello   hello"
s = ' '.join(s.split())

2.去掉所有回车（或其他字符或字符串）

s = "hellonhellonhello hellon"
print(s)
s = s.replace("n","")
print(s)

3.查找字符串首次出现的位置（没有返回-1）

s = "hellonhellonhello hellon"
print(s.find('n'))
print(s.find('la'))

4.查找字符串从后往前找首次出现的位置（没有返回-1）

s = "hellonhellonhello hellon"
print(s.rfind('n'))
print(s.rfind('la'))

5.将字符串转化成列表list

s = "hellonhellonhello hellon"
print(list(s))

6.查找所有匹配的子串


import re

s = "hellonhellonhello hellon"
print(re.findall('hello',s)) # hello也可以换成正则表达式

然后是网页字符串处理的高端用法：

综合运用requests模块，beautifulsoup模块，re模块等

1.requests获取一个链接的内容并原封不动写入文件

import requests

r = requests.get('https://baike.baidu.com')
with open('test.html', 'wb') as fd:
    for chunk in r.iter_content(100):
        fd.write(chunk)

2.读取一个文件的所有内容存到一个字符串里

with open('test.html','r',encoding='utf-8') as f:
    content = f.readlines()
content = ''.join(content)
# content = content.replace('n','') # 如果想去掉回车可以加上这行
print(content)

3.把网页字符串用BeautifulSoup存起来处理

from bs4 import BeautifulSoup

soup = BeautifulSoup(content,'html.parser')
print(soup.prettify())

4.存到BeautifulSoup里之后这个字符串就可以任你摆布了，比如：提取出所有<a>标签

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all('a'))

或者提取出所有<a>标签和<b>标签

soup = BeautifulSoup(content,'html.parser')
print(soup.find_all(['a','b']))

这些属于beautifulsoup的内容了

5.多个关键字切分字符串

import re
re.split('; |, ',str)

>>> a='Beautiful, is; better*thannugly'
>>> import re
>>> re.split('; |, |*|n',a)
['Beautiful', 'is', 'better', 'than', 'ugly'

Tags：Python 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

手机Python编程神器——AidLearning

1、让我们一起来看下吧，直接上图。第一眼看到是不是觉得很高逼格，暗黑画风，这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统，而且还包含了许多非常强大...【详细内容】

2022-07-15　　Tags: Python 点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心！一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放 ...【详细内容】

2022-07-14　　Tags: Python 点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

前言今天笔者想和大家来聊聊python接口自动化的MySQL数据连接，废话不多说咱们直接进入主题吧。一、什么是 PyMySQL？PyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库，P...【详细内容】

2022-07-11　　Tags: Python 点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

aiohttp什么是 aiohttp？一个异步的 HTTP 客户端\服务端框架，基于 asyncio 的异步模块。可用于实现异步爬虫，更快于 requests 的同步爬虫。安装pip install aiohttpaiohttp 和 r...【详细内容】

2022-07-11　　Tags: Python 点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

今天我们学习下 Queue 的进阶用法。生产者消费者模型在并发编程中，比如爬虫，有的线程负责爬取数据，有的线程负责对爬取到的数据做处理（清洗、分类和入库）。假如他们是直接交互的，...【详细内容】

2022-07-06　　Tags: Python 点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

继承：是面向对象编程最重要的特性之一，例如，我们每个人都从祖辈和父母那里继承了一些体貌特征，但每个人却又不同于父母，有自己独有的一些特性。在面向对象中被继承的类是父类或基...【详细内容】

2022-07-06　　Tags: Python 点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

点击上方头像关注我，每周上午 09:00准时推送，每月不定期赠送技术书籍。本文1553字，阅读约需4分钟 Hi，大家好，我是CoCo。在上一篇Python自动化测试系列文章：Python自动化测试之P...【详细内容】

2022-07-05　　Tags: Python 点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

第一种方式：res = requests.get(url, params=data, headers = headers)第二种方式：res = requests.get(url, data=data, headers = headers)注意:1.url格式入参只支持第一种方...【详细内容】

2022-07-05　　Tags: Python 点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

什么是python类的多态python的多态，可以为不同的类实例，或者说不同的数据处理方式，提供统一的接口。用比喻的方式理解python类的多态比如，同一个苹果（统一的接口）在孩子的眼里（类实...【详细内容】

2022-07-04　　Tags: Python 点击:(28)　　评论:(0)　　加入收藏

告别加班！Python批量生成合同文档，解决合同重复制作问题

假设某日我开了一家空调公司，暂且就叫他天强空调安装设备公司吧，假装自己有公司，接了一单大生意，就是给甘肃省的各个高校安装空调（其实这边的气候基本用不到空调，就是假想一下），那么...【详细内容】

2022-07-01　　Tags: Python 点击:(33)　　评论:(0)　　加入收藏

▌简易百科推荐

什么是Web3.0，与当下Web有什么区别，在未来真的能实现吗？

近几年 Web3 被炒得火热，但是大部分人可能还不清楚什么是 Web3，今天就让w3cschool编程狮小师妹带你了解下 Web3 是什么？与我们熟知的 Web1 和 Web2 又有什么区别呢？web3.0什么是...【详细内容】

2022-07-15　　编程狮W3Cschool　　　　Tags:Web3.0 　点击:(2)　　评论:(0)　　加入收藏

手机Python编程神器——AidLearning

2022-07-15　　IT智能化专栏　　　　Tags:AidLearning 　点击:(2)　　评论:(0)　　加入收藏

基于Python+vue的自动化运维、完全开源的云管理平台

2022-07-14　　菜鸟程序猿　　　　Tags:Python 　点击:(3)　　评论:(0)　　加入收藏

python接口自动化之MySQL数据连接

2022-07-11　　测试架构师百里　　　　Tags:python 　点击:(19)　　评论:(0)　　加入收藏

Python异步之aiohttp

2022-07-11　　VT漫步　　　　Tags:aiohttp 　点击:(15)　　评论:(0)　　加入收藏

Python Queue 进阶用法

2022-07-06　　VT漫步　　　　Tags:Python Queue 　点击:(34)　　评论:(0)　　加入收藏

python四大特性（封装，继承，重写，多态）

2022-07-06　　至尊小狸子　　　　Tags:python 　点击:(25)　　评论:(0)　　加入收藏

Python自动化之Python输出函数

2022-07-05　　CoCo的软件测试小栈　　　　Tags:Python 　点击:(27)　　评论:(0)　　加入收藏

Python request使用方法及问题总结

2022-07-05　　独钓寒江雪之IT　　　　Tags:Python request 　点击:(19)　　评论:(0)　　加入收藏

用通俗易懂的多态世界观实例：理解python类的多态

2022-07-04　　写小说的程序员　　　　Tags:python类　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

一文搞懂响应式编程	Android开发组件化与
最流行的 .NET 反编译	MyBatis源码解读 \| 使
mysql数据库中的my.in	女生，人生第一支大牌口
防晒不分男女！防晒帽同	手表鉴定 \| 一眼看真