您当前的位置：首页 > 电脑百科 > 程序开发 > 编程百科

爬取妹子照片（简单入门）

时间：2020-07-02 11:10:20 来源：作者：

+ 加入收藏

简单爬虫

安装第三方库
请求页面
解析网页
保存图片

今天深圳的晚上很冷，半夜就睡醒了，出去买点吃的难受的一批

说好的24小时呢？

开搞开搞安装第三方库

安装第三方请求库(requests)

pip install requests请求页面

请求成功了

存在特殊情况：请求失败

原因八成是网页知道我们是Python过来的不给我们请求。

这里教各路神仙去解决这个User-Agent的尴尬问题：

嗯…怎么看网页的啊？

啊Sir。来了不要催

（只好打马赛克了）

## 请求网页

import requests

headers={'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')

print(response.request.headers)

print(response.text)

解析网页

需要使用 re库来进行正则匹配

找到我们的图片的位置

上面注意看匹配内容

然后进行解析（我们不是什么都需要匹配的，只是需要匹配href里面的内容）

## 请求网页

import requests

import re

headers = {'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')#然后这里就吧上面的headers放进去

#response = requests.get('https://www.vmgirls.com/12945.html',headers=headers)

# print(response.request.headers)

# print(response.text)

html = response.text

#解析网页

urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据

print(urls)

保存图片

第一版本：（文件存在在当前的文件夹，没有创建出来分类）

User-Agent：请求对象 AppleWebKit：请求内核 Chrome浏览器

## 请求网页

import requests

import re

import time

headers = {

'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')

# print(response.request.headers)

# print(response.text)

html = response.text

#解析网页

urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)

print(urls)

# 保存图片

for url in urls:

time.sleep(1) #睡眠一秒，别把别人网站查崩了

file_name = url.split('/')[-1]

response = requests.get(url) # 重新请求网站图片地址就可以直接看了

with open(file_name,'wb') as f: #'wb':二进制 file_name：图片名称

f.write(response.content)

图片就有了…

有问题?有点…不可能数据啥子的都放这里吧…

现在处理## 请求网页

import requests

import re

import time

import os

headers = {

'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')

# print(response.request.headers)

# print(response.text)

html = response.text

#解析网页

dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1] #根据网页标题去做我们的文件夹名字

if not os.path.exists(dir_name):

os.mkdir(dir_name)

urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据

# print(urls)

# 保存图片

for url in urls:

time.sleep(1)

file_name = url.split('/')[-1]

response = requests.get(url)

with open(dir_name +'/' + file_name,'wb') as f: #'wb':二进制 file_name：图片名称

f.write(response.content)

网络觉得你的爬取速度…

Tags：爬取点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

用Python爬取六大平台的弹幕、评论，看这一篇就够了

今天讲解如何用python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几个常见常用的影视、舆论平台的弹幕和评论，这类爬虫得到的结果一般用于娱乐、舆情分析，如:新出一部火...【详细内容】

2021-11-15　　Tags: 爬取点击:(123)　　评论:(0)　　加入收藏

scrapy翻页爬取--scrapy爬虫案例

今天我们仍旧利用scrapy框架实现自动翻页爬取数据，爬取诗词胖排行榜（ https://www.shicimingju.com/paiming）中的标题。1.新建文件夹scrapy starproject 文件名（wallpaper）2.新建...【详细内容】

2021-10-21　　Tags: 爬取点击:(62)　　评论:(0)　　加入收藏

Python构建代理池，突破IP的封锁爬取海量数据

今天带大家使用爬虫来获取免费的ip。1. 打开网站首页，可以看到总共有十页数据，总共100条ip记录。咱们的目的很简单，就是要这100条ip和对应端口号。完了我们再去筛选那些ip是可...【详细内容】

2021-08-17　　Tags: 爬取点击:(72)　　评论:(0)　　加入收藏

python爬虫入门，带你爬取彩票开奖数据，和写入文件操作

回顾python学习历程，感慨良多，这门语言实在是太强了，当然，分支也很多，有的在做安全，有的在做数据，有的在做爬虫，本文就笔者本身的爬虫入门的小经验分享给读者，期待各位在学习python的...【详细内容】

2021-08-11　　Tags: 爬取点击:(81)　　评论:(0)　　加入收藏

2021年数据分析师不值钱了？爬取数据分析后发现原来差距这么大

明确目的带着问题出发，明确我们的目的是探索不同岗位、城市、公司数据人薪资是怎样的，所以是一个探索性分析。数据处理1、查看并理解字段拿到数据，大概看一下，总共有184条记录，量...【详细内容】

2021-07-06　　Tags: 爬取点击:(89)　　评论:(0)　　加入收藏

Python爬虫练习：爬取800多所大学学校排名、星级等

前言国内大学最新排名，北大反超，浙大仅第四，中科大跌至第八时隔五年，“双一流”大学即将迎来首次大考，这也是继改变高校评断标准之后，第一次即将以官方对外发布，自然是引来了许多人...【详细内容】

2021-04-08　　Tags: 爬取点击:(351)　　评论:(0)　　加入收藏

Python爬取下载m3u8加密视频，原来这么简单

1.前言爬取视频的时候发现，现在的视频都是经过加密（m3u8），不再是mp4或者avi链接直接在网页显示，都是经过加密形成ts文件分段进行播放。今天就教大家如果通过python爬取下载m3u8加...【详细内容】

2021-03-11　　Tags: 爬取点击:(486)　　评论:(0)　　加入收藏

使用python爬取抖音app视频

记录一下如何用python爬取app数据，本文以爬取抖音视频app为例。编程工具：pycharmapp抓包工具：mitmproxyapp自动化工具：appium运行环境：windows10思路：私信小编01即可获取大量Pytho...【详细内容】

2020-12-02　　Tags: 爬取点击:(73)　　评论:(0)　　加入收藏

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

众所周知，弹幕，即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕，于我而言，弹幕是视频内容的良好补充，是一个组织良好的评论序列。通过分析弹幕，我们...【详细内容】

2020-10-09　　Tags: 爬取点击:(92)　　评论:(0)　　加入收藏

Python爬虫案例：爬取微信公众号文章

大家好，今天我们来讲点Selenium自动化，你是否有特别喜欢的公众号？你有想过如何将一个公众号历史文章全部文章爬下来学习吗？现在我们就演示用Selenium实现这个功能。...【详细内容】

2020-09-25　　Tags: 爬取点击:(51)　　评论:(0)　　加入收藏

▌简易百科推荐

最完整的Vue教程-从零开始编写可视化大屏

摘要（OF作品展示）OF之前介绍了用python实现数据可视化、数据分析及一些小项目，但基本都是后端的知识。想要做一个好看的可视化大屏，我们还要学一些前端的知识（vue），网上有很多比...【详细内容】

2021-12-27　　项目与数据管理　　　　Tags:Vue 　点击:(1)　　评论:(0)　　加入收藏

程序的执行流程和开发工具介绍

程序是如何被执行的&emsp;&emsp;程序是如何被执行的？许多开发者可能也没法回答这个问题，大多数人更注重的是如何编写程序，却不会太注意编写好的程序是如何被运行，这并不是一个好...【详细内容】

2021-12-23　　IT学习日记　　　　Tags:程序　点击:(9)　　评论:(0)　　加入收藏

单点登录(SSO)看这一篇还不够！这次不慌了

阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案单系统登录解决方案的核心是cookie，cookie携带会话id在浏览器...【详细内容】

2021-12-23　　程序yuan　　　　Tags:单点登录( 　点击:(8)　　评论:(0)　　加入收藏

手把手教你构建一个简单的Eclipse RCP应用

下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse，那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用（总共分为六步）1...【详细内容】

2021-12-22　　阿福ChrisYuan　　　　Tags:RCP应用　点击:(7)　　评论:(0)　　加入收藏

浅析 Token 价值的意义及来源

今天想简单聊一聊 Token 的 Value Capture，就是币的价值问题。首先说明啊，这个话题包含的内容非常之光，Token 的经济学设计也可以包含诸多问题，所以几乎不可能把这个问题说的清...【详细内容】

2021-12-21　　唐少华TSH　　　　Tags:Token 　点击:(9)　　评论:(0)　　加入收藏

在VUE中实现效果"换一换"功能

实现效果：假如有10条数据，分组展示，默认在当前页面展示4个，点击换一批，从第5个开始继续展示，到最后一组，再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】

2021-12-17　　Mason程　　　　Tags:VUE 　点击:(14)　　评论:(0)　　加入收藏

阿里资深软件测试工程师总结的这几点，让小白轻松搞懂性能调优

什么是性能调优？(what) 为什么需要性能调优？(why) 什么时候需要性能调优？(when) 什么地方需要性能调优？(where) 什么时候来进行性能调优？(who) 怎么样进行性能调优？(How) 硬件配...【详细内容】

2021-12-16　　软件测试小p　　　　Tags:性能调优　点击:(19)　　评论:(0)　　加入收藏

抖音防烧屏脚本 – Tasker 脚本分享，适用于 OLED 屏幕

Tasker 是一款适用于 Android 设备的高级自动化应用，它可以通过脚本让重复性的操作自动运行，提高效率。不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖，自...【详细内容】

2021-12-15　　ITBang　　　　Tags:抖音防烧屏　点击:(23)　　评论:(0)　　加入收藏

Rust 核心团队“有毒”

11 月 23 日，Rust Moderation Team（审核团队）在 GitHub 上发布了辞职公告，即刻生效。根据公告，审核团队集体辞职是为了抗议 Rust 核心团队（Core team）在执行社区行为准则和标准上...【详细内容】

2021-12-15　　InfoQ　　　　Tags:Rust 　点击:(24)　　评论:(0)　　加入收藏

实践：使用AutoMeter快速生成API和测试用例的方法

一个项目的大部分API，测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API，复制用例来快速生成，然后做细微调整既可以满足我们的测试需求1.复制API：在菜单发布单...【详细内容】

2021-12-14　　AutoMeter　　　　Tags:AutoMeter 　点击:(20)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为