您当前的位置：首页 > 电脑百科 > 软件技术 > 软件技术

不用敲代码，5分钟教会你爬虫

时间：2019-07-31 15:09:50 来源：作者：

+ 加入收藏

爬虫是什么？

相信大家对爬虫都不陌生，特别是做过网站的站长，这里也简单跟大家解释一下：

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

它会沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的html代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。

举个栗子：

比如我的工作是新媒体小编，现在要学写作取标题，最简单的方式就是去目标公众号/网站等复制他们的标题到Excel来进行分析。

这样的傻瓜式操作很简单，但是效率很低，也很慢，而最高效的方式是什么呢？就是通过爬虫直接爬取我需要的标题，而这个过程仅仅需要1分钟。

废话不多说，跟我一起来操作吧。

准备工作

在你的浏览器安装：“webscraper”扩展，直接在浏览器应用市场下载即可，推荐使用chrome浏览器。

安装好之后，启用它。

进入你要爬取数据的页面，以下我将以知乎来为大家举例。比如我要爬取知乎小管家的所有文章标题，那么就先进入到知乎小管家的文章页面。

然后，按下键盘的F12，进入开发者工具。

当然有些浏览器不同，可能F12进入不了，你可以使用以下快捷键：

win：Ctrl+Shift+I

mac：Cmd+Opt+I, 或者 Tools / Developer tools

或者直接在页面按鼠标右键选择审查元素，或者是检查。比如我的是chrome浏览器，就是检查。

然后调出浏览器开发者工具。

默认是在浏览器的右侧，点击右上角三个点，选择第三个把他放到浏览器下方。

正式开始

第一步：创建sitemap

在开发者工具的菜单当中选择最后一个，也就是你刚刚安装的那个扩展：

然后在第二行里选择第三个，也就是：Create new sitemap

然后选择Create Sitemap

创建好之后会出现两个选项让你填写：

sitemap name：这个可自定义，比如我要抓取的是文章标题，那么我就填写biaoti就可以了。

start url：这个是你要爬取页面的URL，也就是我要把知乎小管家文章页面的链接复制到这里。

以下是我填好后的：

然后点击Create Sitemap，第一步就完成了。

第二步：添加 selector

点击add new selector

然后又出来一些选框：

id：因为我们要爬取的是标题，所以就填：“title”。type：这是个选项，一样，因为我们要爬取的是标题，也就是文本，所以这里我们就选默认的Text。Selector：最重要的一步，待会演示。Multiple：打上勾Regex：不用管Parent Selectors：不用管

以下是我填好的：

刚刚还有Selector这个最重要的一步我们没有做，现在我们来说说它，这里有3个选项，分别是：

1、Select = 选择器

2、Elementt preview = 预览

3、Data preview = 数据预览

其实大家如果看得懂英文就知道它的意思了。

现在我们开始操作，首先点击Select选择器，然后你会发现多出来一个窗口：

这个时候你会发现当你的鼠标移动到页面内容的时候会发生变化，我们把它移动到标题，然后点击一下标题，点击完成之后在点击下一个就OK了。

也就是我们一共要点击两下标题，第一个和第二个。点完之后是这样的：

你看，虽然我只点了第一个和第二个，但是它下面的所有标题都被选中了。

这里还要跟大家说明一下：

点第一个标题也可以说是定位，也就是说爬虫要从哪里开始抓取，比如上图，我也可以从第二个标题开始选择，然后点一下第三个标题，然后底下的标题就全部被选择，只有第一个不会被选中。

但它不能选择从哪里结束，只能定位开始。

标题全部被选中后，然后我们点击窗口的 Done selecting！

然后这一步我们就完成了，但是别忘了刚刚我们说到的Selector这里还个预览，也就是：

Elementt preview

Data preview

我们点击Elementt preview你会发现页面中的标题又全变红了，也就是选中了，再次点击就是取消预览；然后点击Data preview你会发现：

当然这个只是窗口预览，但其实如果只是标题的话，我们可以直接在这个窗口全部复制然后粘贴到电脑里。

但是还是建议大家下载下来哈。预览没问题之后，点击Save selector保存：

第三步：开始抓取

我们再次点击第二行菜单里的Sitemap biaoti，然后选择Scrape。

然后又会跳出来最后两个数据让你填写;

但是这个我们不用管它，默认的2000就好，直接点击Start scraping开始抓取。

也解释一下它的意思：

它意思是抓取的间隔时间以及页面加载延迟时间。

比如我要抓取知乎的多个页面，那就要设置间隔时间，这样可以避免被知乎的反爬虫监测到。

但如果你不设置间隔时间的话，一秒钟访问一个网站几十次甚至上百次，这很明显不是人为的，所以很容易触发该网站的反爬虫机制，后果就是会封掉你IP地址，你就再也别想在你的电脑上访问知乎这个网站了，更别提继续抓取了~

还有一点也要跟大家说明一下，你在抓取该网站数据的时候，你也会占用该网站的带宽，如果这个网站的带宽允许同时100个人访问，但你一秒钟就给它访问了几十上百次，可能会导致该网站其他用户无法打开页面，或者加载延迟等问题。

这会大大对该网站造成非常不好的影响，所以，各位可不要用这个去攻击别人的网站啊。虽然也没什么卵用~

设置好时间之后我们点击Start scraping开始正式抓取。

这个时候它会弹出一个窗口，我们不用管它，然后大概几秒钟后就抓取完了。

第四步：导出至本地

我们再次点击 Sitemap biaoti 选择 Export data as CSV

然后点击 Download now！下载。

然后我们用Excel打开：

怎么样，是不是很简单，如果你会英语，就更好理解了。

Tags：爬虫点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Python爬虫实战，pyecharts模块，Python实现中国地铁数据可视化

利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本：3.6.4相关模块：requests模块；wordcloud模块；pandas模块；numpy模块；jieba模块；pyecharts模...【详细内容】

2021-12-08　　Tags: 爬虫点击:(34)　　评论:(0)　　加入收藏

被称之为永远的神！就这6个Python爬虫开源项目？

这个开源项目程序可以持续爬取一个或多个新浪微博用户（如李文di、无疫烦）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。...【详细内容】

2021-10-27　　Tags: 爬虫点击:(43)　　评论:(0)　　加入收藏

scrapy翻页爬取--scrapy爬虫案例

今天我们仍旧利用scrapy框架实现自动翻页爬取数据，爬取诗词胖排行榜（ https://www.shicimingju.com/paiming）中的标题。1.新建文件夹scrapy starproject 文件名（wallpaper）2.新建...【详细内容】

2021-10-21　　Tags: 爬虫点击:(62)　　评论:(0)　　加入收藏

python爬虫入门，带你爬取彩票开奖数据，和写入文件操作

回顾python学习历程，感慨良多，这门语言实在是太强了，当然，分支也很多，有的在做安全，有的在做数据，有的在做爬虫，本文就笔者本身的爬虫入门的小经验分享给读者，期待各位在学习python的...【详细内容】

2021-08-11　　Tags: 爬虫点击:(81)　　评论:(0)　　加入收藏

Python爬虫快速入门，BeautifulSoup基本使用及实践

来源：Python数据之道作者：Peter整理：阳哥大家好，我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点，文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】

2021-06-23　　Tags: 爬虫点击:(134)　　评论:(0)　　加入收藏

不能爬小程序，叫什么会爬虫

上次写的如何给小孩约马术课过程，见这里 Python 约课[1]，本想一劳永逸，但是好景不长，预约系统升级了，而且还换了服务商，从之前的公众号 H5 应用，换成了小程序，之前编写的方式直接失...【详细内容】

2021-05-07　　Tags: 爬虫点击:(262)　　评论:(0)　　加入收藏

爬虫不使用代理IP会出现什么的情况

众所周知，代理IP可以助力爬虫工作更好的进行，很多人认为：如果没有代理IP，爬虫工作寸步难行。那么，如果爬虫不使用代理IP会出现什么情况呢？一、小型爬虫：可有可无爬几百篇文章，几百...【详细内容】

2021-05-07　　Tags: 爬虫点击:(157)　　评论:(0)　　加入收藏

Python高级反爬虫类型(App反爬虫)

前言将爬虫的爬取过程分为网络请求，文本获取和数据提取3个部分。信息校验型反爬虫主要出现在网络请求阶段，这个阶段的反爬虫理念以预防为主要目的，尽可能拒绝反爬虫程序的请...【详细内容】

2021-04-20　　Tags: 爬虫点击:(452)　　评论:(0)　　加入收藏

终于有人把Scrapy爬虫框架讲明白了

导读：Scrapy由Python语言编写，是一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试...【详细内容】

2021-04-13　　Tags: 爬虫点击:(335)　　评论:(0)　　加入收藏

一文弄清Python网络爬虫解析库！内含多个实例讲解

在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后，可能大家还对超长的正则表达式记忆犹新，设想如果想要匹配的条目更加多那表达式长度将会更加恐怖，这显然...【详细内容】

2021-04-12　　Tags: 爬虫点击:(262)　　评论:(0)　　加入收藏

▌简易百科推荐

Win10如何连接手机摄像头？Win10连接手机摄像头的方法

现在很多手机的摄像头都会比电脑的高，因此有不少小伙伴想要在有些时候用手机摄像头代替电脑摄像头，那么具体应该如何操作呢？下面就和小编一起来看看连接手机摄像头的方法吧。更...【详细内容】

2021-12-28　　装机吧　　　　Tags:Win10 　点击:(2)　　评论:(0)　　加入收藏

手把手带你找到她电脑的wifi密码

今天教大家通过windows的CMD终端查看WIFI密码使用管理权限打开CMD 查看本机连接过WIFI名称netsh wlan show profiles 查询某一个WIFI的密码比如这里我想查询猪猪侠的...【详细内容】

2021-12-27　　吉祥同学学安全　　　　Tags:wifi密码　点击:(1)　　评论:(0)　　加入收藏

体验最好的u盘pe工具

从本质上来讲，PE系统最广泛的用途只是用来安装系统。通过其内置的Ghost软件来调用第三方的GHO系统镜像来完成系统的安装。从表面来看，最终的系统是否纯净、是否安全，与Gho镜像...【详细内容】

2021-12-27　　u盘装系统　　　　Tags:pe工具　点击:(3)　　评论:(0)　　加入收藏

苹果Safari浏览器中的20几个隐藏技巧

Safari是苹果在iPhone和iPad上的默认网络浏览器。虽然我们天天都在使用，但是，你是否深入研究了Safari的所有功能和设置？"无痕浏览"、"阅读器"视图和下载文件等标准选项只是其...【详细内容】

2021-12-16　　趣玩公社　　　　Tags:Safari 　点击:(21)　　评论:(0)　　加入收藏

一款优秀的 HTML5 视频播放器插件，支持字幕、弹幕、直播

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的是一个开源的 HTML5 视频播放器插件——MuiP...【详细内容】

2021-12-16　　GitHub精选　　　　Tags:插件　点击:(23)　　评论:(0)　　加入收藏

Win10强烈不建议安装这2款软件，严重拖慢电脑运行！旧电脑的噩耗

给电脑安装软件，最让人担心的就是安装到“拖家带口”的，而这样的手法正是国产软件惯用的！全家桶自动安装、软文弹窗等等，这些让我们讨厌的却是软件的直接收入来源。那么在你安...【详细内容】

2021-12-15　　老毛桃winpe　　　　Tags:软件　点击:(18)　　评论:(0)　　加入收藏

一篇文章摸透CAD各种比例，新手直呼终于开窍了

不知道你是否遇到过这么一种情况：在一个A4大小的图框画一个接近满框的图形，在打印的时候却发现图形很小根本不符合模型空间的实际情况。看似明显是比例问题，但又不知道究竟是什...【详细内容】

2021-12-14　　设计师小仁君　　　　Tags:CAD 　点击:(21)　　评论:(0)　　加入收藏

太变态了，这个Excel功能居然能自动合并表格

哈喽大家好！前几天一个朋友向我疯狂吐槽。快到年底了，公司要统计年度数据。需要把一月到十二月份，十二张表格的数据，全部汇总到一个表格内。这样的数据汇报每年都会有，每到年...【详细内容】

2021-12-14　　秋叶Excel　　　　Tags:Excel 　点击:(23)　　评论:(0)　　加入收藏

拯救Excel疑难杂症的合集来啦

我发现最近不少小叶子的留言都和 Excel 相关，我寻思是时候出一期解决 Excel 疑难杂症的小合集了。于是毛毛在众多问题中，挑了三个被问次数最多的有关 Excel 的问题，今天就来给...【详细内容】

2021-12-14　　叶PPT　　　　Tags:Excel 　点击:(30)　　评论:(0)　　加入收藏

让浏览器为所欲为！油猴脚本简介与使用心得

大家好，我是Stark-C。油猴简介【油猴】一款免费的浏览器扩展和最为流行的用户脚本管理器，它是一个附加组件（扩展程序），让用户安装一些脚本使大部分HTML为主的网页改变得更方便易...【详细内容】

2021-12-13　　什么值得买　　　　Tags:油猴　点击:(46)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游