您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

爬取妹子照片(简单入门)

时间:2020-07-02 11:10:20  来源:  作者:

简单爬虫

  • 安装第三方库
  • 请求页面
  • 解析网页
  • 保存图片

今天深圳的晚上很冷,半夜就睡醒了,出去买点吃的难受的一批

说好的24小时呢?

开搞开搞安装第三方库

安装第三方请求库(requests)

pip install requests请求页面

爬取妹子照片(简单入门)

请求成功了

存在特殊情况:请求失败

原因八成是网页知道我们是Python过来的不给我们请求。

爬取妹子照片(简单入门)

这里教各路神仙去解决这个User-Agent的尴尬问题:

爬取妹子照片(简单入门)

嗯…怎么看网页的啊?

啊Sir。来了不要催

(只好打马赛克了)

爬取妹子照片(简单入门)

## 请求网页

import requests

headers={'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')

print(response.request.headers)

print(response.text)

解析网页

需要使用 re库来进行正则匹配

找到我们的图片的位置

爬取妹子照片(简单入门)

上面注意看匹配内容

然后进行解析(我们不是什么都需要匹配的,只是需要匹配href里面的内容)

爬取妹子照片(简单入门)

## 请求网页

import requests

import re

headers = {'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')#然后这里就吧上面的headers放进去

#response = requests.get('https://www.vmgirls.com/12945.html',headers=headers)

# print(response.request.headers)

# print(response.text)

html = response.text

#解析网页

urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据

print(urls)

保存图片

第一版本:(文件存在在当前的文件夹,没有创建出来分类)

User-Agent:请求对象 AppleWebKit:请求内核 Chrome浏览器

## 请求网页

import requests

import re

import time

headers = {

'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')

# print(response.request.headers)

# print(response.text)

html = response.text

#解析网页

urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)

print(urls)

# 保存图片

for url in urls:

time.sleep(1) #睡眠一秒,别把别人网站查崩了

file_name = url.split('/')[-1]

response = requests.get(url) # 重新请求网站 图片地址就可以直接看了

with open(file_name,'wb') as f: #'wb':二进制 file_name:图片名称

f.write(response.content)

图片就有了…

爬取妹子照片(简单入门)

有问题?有点…不可能数据啥子的都放这里吧…

爬取妹子照片(简单入门)

现在处理## 请求网页

import requests

import re

import time

import os

headers = {

'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent

}

response = requests.get('https://www.vmgirls.com/12945.html')

# print(response.request.headers)

# print(response.text)

html = response.text

#解析网页

dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1] #根据网页标题去做我们的文件夹名字

if not os.path.exists(dir_name):

os.mkdir(dir_name)

urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据

# print(urls)

# 保存图片

for url in urls:

time.sleep(1)

file_name = url.split('/')[-1]

response = requests.get(url)

with open(dir_name +'/' + file_name,'wb') as f: #'wb':二进制 file_name:图片名称

f.write(response.content)

网络觉得你的爬取速度…



Tags:爬取   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
今天讲解如何用python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几个常见常用的影视、舆论平台的弹幕和评论,这类爬虫得到的结果一般用于娱乐、舆情分析,如:新出一部火...【详细内容】
2021-11-15  Tags: 爬取  点击:(123)  评论:(0)  加入收藏
今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜( https://www.shicimingju.com/paiming)中的标题。1.新建文件夹scrapy starproject 文件名(wallpaper)2.新建...【详细内容】
2021-10-21  Tags: 爬取  点击:(62)  评论:(0)  加入收藏
今天带大家使用爬虫来获取免费的ip。1. 打开网站首页,可以看到总共有十页数据,总共100条ip记录。咱们的目的很简单,就是要这100条ip和对应端口号。完了我们再去筛选那些ip是可...【详细内容】
2021-08-17  Tags: 爬取  点击:(72)  评论:(0)  加入收藏
回顾python学习历程,感慨良多,这门语言实在是太强了,当然,分支也很多,有的在做安全,有的在做数据,有的在做爬虫,本文就笔者本身的爬虫入门的小经验分享给读者,期待各位在学习python的...【详细内容】
2021-08-11  Tags: 爬取  点击:(81)  评论:(0)  加入收藏
明确目的带着问题出发,明确我们的目的是探索不同岗位、城市、公司数据人薪资是怎样的,所以是一个探索性分析。数据处理1、查看并理解字段拿到数据,大概看一下,总共有184条记录,量...【详细内容】
2021-07-06  Tags: 爬取  点击:(89)  评论:(0)  加入收藏
前言国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八时隔五年,“双一流”大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人...【详细内容】
2021-04-08  Tags: 爬取  点击:(351)  评论:(0)  加入收藏
1.前言爬取视频的时候发现,现在的视频都是经过加密(m3u8),不再是mp4或者avi链接直接在网页显示,都是经过加密形成ts文件分段进行播放。今天就教大家如果通过python爬取下载m3u8加...【详细内容】
2021-03-11  Tags: 爬取  点击:(486)  评论:(0)  加入收藏
记录一下如何用python爬取app数据,本文以爬取抖音视频app为例。编程工具:pycharmapp抓包工具:mitmproxyapp自动化工具:appium运行环境:windows10思路:私信小编01即可获取大量Pytho...【详细内容】
2020-12-02  Tags: 爬取  点击:(73)  评论:(0)  加入收藏
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列。通过分析弹幕,我们...【详细内容】
2020-10-09  Tags: 爬取  点击:(92)  评论:(0)  加入收藏
大家好,今天我们来讲点Selenium自动化,你是否有特别喜欢的公众号?你有想过如何将一个公众号历史文章全部文章爬下来学习吗?现在我们就演示用Selenium实现这个功能。...【详细内容】
2020-09-25  Tags: 爬取  点击:(51)  评论:(0)  加入收藏
▌简易百科推荐
摘 要 (OF作品展示)OF之前介绍了用python实现数据可视化、数据分析及一些小项目,但基本都是后端的知识。想要做一个好看的可视化大屏,我们还要学一些前端的知识(vue),网上有很多比...【详细内容】
2021-12-27  项目与数据管理    Tags:Vue   点击:(1)  评论:(0)  加入收藏
程序是如何被执行的&emsp;&emsp;程序是如何被执行的?许多开发者可能也没法回答这个问题,大多数人更注重的是如何编写程序,却不会太注意编写好的程序是如何被运行,这并不是一个好...【详细内容】
2021-12-23  IT学习日记    Tags:程序   点击:(9)  评论:(0)  加入收藏
阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案 单系统登录解决方案的核心是cookie,cookie携带会话id在浏览器...【详细内容】
2021-12-23  程序yuan    Tags:单点登录(   点击:(8)  评论:(0)  加入收藏
下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse,那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用(总共分为六步)1...【详细内容】
2021-12-22  阿福ChrisYuan    Tags:RCP应用   点击:(7)  评论:(0)  加入收藏
今天想简单聊一聊 Token 的 Value Capture,就是币的价值问题。首先说明啊,这个话题包含的内容非常之光,Token 的经济学设计也可以包含诸多问题,所以几乎不可能把这个问题说的清...【详细内容】
2021-12-21  唐少华TSH    Tags:Token   点击:(9)  评论:(0)  加入收藏
实现效果:假如有10条数据,分组展示,默认在当前页面展示4个,点击换一批,从第5个开始继续展示,到最后一组,再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】
2021-12-17  Mason程    Tags:VUE   点击:(14)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  软件测试小p    Tags:性能调优   点击:(19)  评论:(0)  加入收藏
Tasker 是一款适用于 Android 设备的高级自动化应用,它可以通过脚本让重复性的操作自动运行,提高效率。 不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖,自...【详细内容】
2021-12-15  ITBang    Tags:抖音防烧屏   点击:(23)  评论:(0)  加入收藏
11 月 23 日,Rust Moderation Team(审核团队)在 GitHub 上发布了辞职公告,即刻生效。根据公告,审核团队集体辞职是为了抗议 Rust 核心团队(Core team)在执行社区行为准则和标准上...【详细内容】
2021-12-15  InfoQ    Tags:Rust   点击:(24)  评论:(0)  加入收藏
一个项目的大部分API,测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API,复制用例来快速生成,然后做细微调整既可以满足我们的测试需求1.复制API:在菜单发布单...【详细内容】
2021-12-14  AutoMeter    Tags:AutoMeter   点击:(20)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条