您当前的位置:首页 > 电脑百科 > 程序开发 > 语言 > Python

学习爬虫之前必会的技能 - 浏览器自带的开发者工具

时间:2019-11-13 10:01:48  来源:  作者:

本篇要介绍的是开始学习爬虫之前必会的技能 - 浏览器自带的开发者工具,学会了浏览器开发者工具,才能更好的分析出网页相应的内容结构,以及如何使用开发者工具来找出网站中信息交互的请求接口地址。

PS:请求接口地址,小白可以理解为一个网页的地址。此地址是服务器(服务器可以看做配置高点的电脑)专门返回数据用的请求地址,比如我们在浏览器上输入一个地址,回车以后能看到浏览器上返回相应的网页,请求接口地址与之类似,只不过一般返回的都是格式化的数据信息,如 JSON。不懂 JSON 的详见:Python小课堂25 - 你真的了解JSON嘛?

浏览器的选择

浏览器的选择,特意来说下对于分析爬虫元素的浏览器,笔者常用的3个,分别为:谷歌、火狐、360极速浏览器。

对于浏览器的选择,基本上只要除了微软的 IE 浏览器以外,其余浏览器都可以使用,因为 IE 自带的浏览器开发工具不太好用。这里推荐谷歌浏览器。但是作为讲解,笔者这里使用的是360极速浏览器,因为360的浏览器是双核的,既可以用 IE 内核,也可以用谷歌内核,在工作中兼容性较好,支持一些只有 IE 能访问的网页。可以放心的是下面讲解的截图虽然是360的开发者工具,但是与谷歌浏览器基本一样,安心观看啦。。。

PS:会了谷歌浏览器的开发者工具,其余浏览器同理。

浏览器的开发者工具准备

首先,打开浏览器随意进入一个网页,如百度,按下F12后可以看到下图所示:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

也许你看到的框框和笔者的不一样,现在看到的框是默认吸附于浏览器的,笔者更习惯将开发者工具作为单独的一个页面呈现。笔者选择第一个按钮,可以调节如下:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 


python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

浏览器开发者工具详讲

调整后,可以看到浏览器上面一排按钮,这里只为了爬虫介绍最常用的前四个按钮,元素(Elements)、控制台(Console)、源代码(Sources),网络(Network)

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

标粗的文字(元素、网络)是学爬虫前提必须掌握的选项卡,其余两个了解即可,以下按照掌握程度的优先级进行介绍。

1. 元素(Elements)

查看元素代码结构:点击如下图的箭头(或用者用快捷键Ctrl+Shift+C)进入选择元素模式,然后从页面中选择需要查看的元素,然后可以在开发者工具元素(Elements)一栏中定位到该元素源代码的具体位置 。

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

举个栗子,比如想看百度热搜对应的 html 代码,只需要点击此箭头,选择你想查看的文本,鼠标左键点击后,方可在 Elements 中看到对应的 html 代码,如下:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

根据文字找出对应代码块,是学习爬虫之前分析的必要阶段,当然这里交小白一个好玩的操作。我们可以对其页面内容进行修改,选中对应页面元素,双击即可修改文字,比如改为下面的:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

当然,这里仅限于你不刷新的情况,一旦刷新了页面,其实又回到原来的热点新闻文字了,因为静态页面我们是可以用此方式修改的,若刷新页面,相当于重新请求了服务器一次,所以又变回原来的文字信息了。

2. 网络(Network)

点到 Network 选项卡,查看下面图片可以看到最常用的几个功能:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

第二行的按钮可以根据网页资源进行网页监控的过滤:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

比如选择XHR时,就是所谓的异步请求,比如我们常用的百度翻译,有时候不需要你点击翻译按钮,左侧写完英文后,右侧可以自动翻译出结果,就是因为使用了异步调用的请求方式,如下图:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

对于爬虫来说,分析请求服务器的接口异常重要,就拿百度翻译为例,我们可以依次点击这四个请求依次查看其请求内容,直接以 v2tranapi 网页请求为例,先来看 Headers :

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

其次是 Preview :

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

Response :

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

还有 Cookies , timing ,此处详细介绍了,自行了解即可。爬虫必须掌握的就是对网页的分析,而分析网页的元素以及请求接口是学习爬虫之前必要的知识。

PS:多说一句,对于 Cookies 的相关信息,不要随意公布在网上给人看…!Cookies 涉及账号密码,会有安全问题,如果后续有机会,单独开一篇来讲下。

3. 控制台(Console)

控制台,类似 Pycharm 中的控制台,编写程序都需要用到控制台,目的是为了便于调试,点击如下,可以看到百度设置的招聘小彩蛋(各大厂都有…):

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

了解即可,前端开发人员用到的较多,这里不多介绍了,有需要自己可以搜索相关知识…

4. 源代码(Source)

在源代码(Source)页面可以查看到当前网页的所有源文件,如下图:

python小课堂30 - 爬虫之前必会的浏览器开发者工具

 

在编写前端页面时,可以通过此项进行代码的调试,了解即可。

总结

本篇粗略的介绍了一下学习爬虫之前必须要掌握的技能,有些地方没有写的非常详细,笔者认为,F12 必会的就是 网页元素的选择 与 网络中分析接口 ,这两个是重点

至于了解的知识点,大家可以自行百度,网上有许多优秀详细的文章,比笔者这里介绍的要详细得多,本篇目的只有一个,认准学习的目标,突出重点去学习。再次强调,浏览器开发者工具 F12 熟练掌握 网页元素 和 网络分析,后续学习爬虫才会懂得原理。



Tags:爬虫   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本:3.6.4相关模块:requests模块;wordcloud模块;pandas模块;numpy模块;jieba模块;pyecharts模...【详细内容】
2021-12-08  Tags: 爬虫  点击:(34)  评论:(0)  加入收藏
这个开源项目程序可以持续爬取一个或多个新浪微博用户(如李文di、无疫烦)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。...【详细内容】
2021-10-27  Tags: 爬虫  点击:(43)  评论:(0)  加入收藏
今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜( https://www.shicimingju.com/paiming)中的标题。1.新建文件夹scrapy starproject 文件名(wallpaper)2.新建...【详细内容】
2021-10-21  Tags: 爬虫  点击:(62)  评论:(0)  加入收藏
回顾python学习历程,感慨良多,这门语言实在是太强了,当然,分支也很多,有的在做安全,有的在做数据,有的在做爬虫,本文就笔者本身的爬虫入门的小经验分享给读者,期待各位在学习python的...【详细内容】
2021-08-11  Tags: 爬虫  点击:(81)  评论:(0)  加入收藏
来源:Python数据之道作者:Peter整理:阳哥大家好,我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点,文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】
2021-06-23  Tags: 爬虫  点击:(134)  评论:(0)  加入收藏
上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失...【详细内容】
2021-05-07  Tags: 爬虫  点击:(262)  评论:(0)  加入收藏
众所周知,代理IP可以助力爬虫工作更好的进行,很多人认为:如果没有代理IP,爬虫工作寸步难行。那么,如果爬虫不使用代理IP会出现什么情况呢? 一、小型爬虫:可有可无爬几百篇文章,几百...【详细内容】
2021-05-07  Tags: 爬虫  点击:(157)  评论:(0)  加入收藏
前言 将爬虫的爬取过程分为网络请求,文本获取和数据提取3个部分。 信息校验型反爬虫主要出现在网络请求阶段,这个阶段的反爬虫理念以预防为主要目的,尽可能拒绝反爬虫程序的请...【详细内容】
2021-04-20  Tags: 爬虫  点击:(452)  评论:(0)  加入收藏
导读:Scrapy由Python语言编写,是一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试...【详细内容】
2021-04-13  Tags: 爬虫  点击:(335)  评论:(0)  加入收藏
在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后,可能大家还对超长的正则表达式记忆犹新,设想如果想要匹配的条目更加多那表达式长度将会更加恐怖,这显然...【详细内容】
2021-04-12  Tags: 爬虫  点击:(262)  评论:(0)  加入收藏
▌简易百科推荐
大家好,我是菜鸟哥,今天跟大家一起聊一下Python4的话题! 从2020年的1月1号开始,Python官方正式的停止了对于Python2的维护。Python也正式的进入了Python3的时代。而随着时间的...【详细内容】
2021-12-28  菜鸟学python    Tags:Python4   点击:(1)  评论:(0)  加入收藏
学习Python的初衷是因为它的实践的便捷性,几乎计算机上能完成的各种操作都能在Python上找到解决途径。平时工作需要在线学习。而在线学习的复杂性经常让人抓狂。费时费力且效...【详细内容】
2021-12-28  风度翩翩的Python    Tags:Python   点击:(1)  评论:(0)  加入收藏
Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使...【详细内容】
2021-12-27  IT资料库    Tags:Python 库   点击:(2)  评论:(0)  加入收藏
菜单驱动程序简介菜单驱动程序是通过显示选项列表从用户那里获取输入并允许用户从选项列表中选择输入的程序。菜单驱动程序的一个简单示例是 ATM(自动取款机)。在交易的情况下...【详细内容】
2021-12-27  子冉爱python    Tags:Python   点击:(4)  评论:(0)  加入收藏
有不少同学学完Python后仍然很难将其灵活运用。我整理15个Python入门的小程序。在实践中应用Python会有事半功倍的效果。01 实现二元二次函数实现数学里的二元二次函数:f(x,...【详细内容】
2021-12-22  程序汪小成    Tags:Python入门   点击:(32)  评论:(0)  加入收藏
Verilog是由一个个module组成的,下面是其中一个module在网表中的样子,我只需要提取module名字、实例化关系。module rst_filter ( ...); 端口声明... wire定义......【详细内容】
2021-12-22  编程啊青    Tags:Verilog   点击:(9)  评论:(0)  加入收藏
运行环境 如何从 MP4 视频中提取帧 将帧变成 GIF 创建 MP4 到 GIF GUI ...【详细内容】
2021-12-22  修道猿    Tags:Python   点击:(6)  评论:(0)  加入收藏
面向对象:Object Oriented Programming,简称OOP,即面向对象程序设计。类(Class)和对象(Object)类是用来描述具有相同属性和方法对象的集合。对象是类的具体实例。比如,学生都有...【详细内容】
2021-12-22  我头秃了    Tags:python   点击:(9)  评论:(0)  加入收藏
所谓内置函数,就是Python提供的, 可以直接拿来直接用的函数,比如大家熟悉的print,range、input等,也有不是很熟,但是很重要的,如enumerate、zip、join等,Python内置的这些函数非常...【详细内容】
2021-12-21  程序员小新ds    Tags:python初   点击:(5)  评论:(0)  加入收藏
Hi,大家好。我们在接口自动化测试项目中,有时候需要一些加密。今天给大伙介绍Python实现各种 加密 ,接口加解密再也不愁。目录一、项目加解密需求分析六、Python加密库PyCrypto...【详细内容】
2021-12-21  Python可乐    Tags:Python   点击:(8)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条