您当前的位置：首页 > 电脑百科 > 程序开发 > 语言 > javascript

JS逆向方法论-反爬虫的四种常见方式

时间：2020-01-17 11:15:26 来源：作者：

现在的网页代码搞得越来越复杂，除了使用vue等前端框架让开发变得容易外，主要就是为了防爬虫，所以写爬虫下的功夫就越来越多。攻和防在互相厮杀中结下孽缘却又相互提升着彼此。

本文就JS反爬虫的策略展开讨论，看看这中间都有着怎样的方法破解。

一、JS写cookie

我们要写爬虫抓某个网页里面的数据，无非是打开网页，看看源代码，如果html里面有我们要的数据，那就简单了。用requests请求网址得到网页源代码然后解析提取。

等等！requests得到的网页是一对JS，跟浏览器打开看到的网页源码完全不一样！这种情况，往往是浏览器运行这段JS生成一个（或多个）cookie再带着这个cookie做二次请求。服务器那边收到这个cookie就认为你的访问是通过浏览器过来的合法访问。

其实，你在浏览器（chrome、Firefox都可以）里可以看到这一过程。首先把Chrome浏览器保存的该网站的cookie删除，按F12到Network窗口，把“preserve log”选中（Firefox是“Persist logs”），刷新网页，这样我们就可以看到历史的Network请求记录。比如下图：

第一次打开“index.html”页面时返回的是521，内容是一段JS代码；第二次请求这个页面就得到了正常的HTML。查看两次请求的cookies，可以发现第二次请求时带上了一个cookie，而这个cookie并不是第一次请求时服务器发过来的。其实它就是JS生成的。

对策就是，研究那段JS，找到它生成cookie的算法，爬虫就可以解决这个问题。

二、JS加密ajax请求参数

写爬虫抓某个网页里面的数据，发现网页源代码里面没有我们要的数据，那就有点麻烦了。那些数据往往是ajax请求得到的。但是也不用怕，按F12打开Network窗口，刷新网页看看加载这个网页都下载了哪些URL，我们要的数据就在某个URL请求的结果里面。这类URL在Chrome的Network里面的类型大多是XHR。通过观察它们的“Response”就可以发现我们要的数据。

然而事情往往不是这么顺利，这个URL包含很多参数，某个参数是一串看上去无意义的字符串。这个字符串很可能是JS通过一个加密算法得到的，服务器也会通过同样的算法进行验证，验证通过了才认为你这是从浏览器来的请求。我们可以把这个URL拷贝到地址栏，把那个参数随便改个字母，访问一下看看是不是能得到正确的结果，由此来验证它是否是很重要的加密参数。

对于这样的加密参数，对策是通过debug JS来找到对应的JS加密算法。其中关键的是在Chrome里面设置“XHR/fetch Breakpoints”。

三、JS反调试（反debug）

前面我们都用到了Chrome 的F12去查看网页加载的过程，或者是调试JS的运行过程。这种方法用多了，网站就加了反调试的策略，只有我们打开F12，就会暂停在一个“debugger”代码行，无论怎样都跳不出去。它看起来像下面这样：

不管我们点击多少次继续运行，它一直在这个“debugger”这里，每次都会多出一个VMxx的标签，观察“Call Stack”发现它好像陷入了一个函数的递归调用。这个“debugger”让我们无法调试JS。但是关掉F12窗口，网页就正常加载了。

解决这种JS反调试的方法我们称之为“反-反调试”，其策略是：通过“Call Stack”找到把我们带入死循环的函数，重新定义它。

这样的函数几乎没有任何其它功能只是给我们设置的陷阱。我们可以把这个函数在“Console”里面重新定义，比如把它重新定义为空函数，这样再运行它时就什么都不做，也就不会把我们带人陷阱。在这个函数调用的地方打个“Breakpoint”。因为我们已经在陷阱里面了，所以要刷新页面，JS的运行应该停止在设置的断点处，此时该函数尚未运行，我们在Console里面重新定义它，继续运行就可以跳过该陷阱。

四、JS发送鼠标点击事件

还有些网站，它的反爬都不是上面的方式。你从浏览器可以打开正常的页面，而在requests里面却被要求输入验证码或重定向其它网页。起初你可能一头雾水，但不要怕，认真看看“Network”或许能发现些线索。比如下面这个Network流里面的信息：

认真观察后发现，每点击页面的的链接，它都会做一个“cl.gif”的请求，它看上去是下载一个gif图片，然而并不是。它请求时发送的参数非常多，而且这些参数都是当前页面的信息。比如包含了被点击的链接等等。

我们先来梳理一下它的逻辑。JS会响应链接被点击的事件，在打开链接前，先访问cl.gif，把当前的信息发送给服务器，然后再打开被点击的链接。服务器收到被点击链接的请求，会看看之前是不是已经通过cl.gif把对应信息发过来，如果发过来了就认为是合法的浏览器访问，给出正常的网页内容。

因为requests没有鼠标事件响应就没有访问cl.gif的过程就直接访问链接，服务器就拒绝服务。

明白了这个过程，我们不难拿出对策，几乎不需要研究JS内容（JS也有可能对被点击链接进行修改哦）就可以绕过这个反爬策略，无非是在访问链接前先访问一下cl.gif即可。关键是要研究cl.gif后的参数，把这些参数都带上就万事大吉啦。

结尾

爬虫和网站是一对冤家，相克相生。爬虫知道了反爬策略就可以做成响应的反-反爬策略；网站知道了爬虫的反-反爬策略就可以做一个“反-反-反爬”策略……道高一尺魔高一丈，两者的斗争也不会结束。

Tags：爬虫点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Python爬虫实战，pyecharts模块，Python实现中国地铁数据可视化

利用Python实现中国地铁数据可视化。废话不多说。让我们愉快地开始吧~开发工具Python版本：3.6.4相关模块：requests模块；wordcloud模块；pandas模块；numpy模块；jieba模块；pyecharts模...【详细内容】

2021-12-08　　Tags: 爬虫点击:(34)　　评论:(0)　　加入收藏

被称之为永远的神！就这6个Python爬虫开源项目？

这个开源项目程序可以持续爬取一个或多个新浪微博用户（如李文di、无疫烦）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。...【详细内容】

2021-10-27　　Tags: 爬虫点击:(43)　　评论:(0)　　加入收藏

scrapy翻页爬取--scrapy爬虫案例

今天我们仍旧利用scrapy框架实现自动翻页爬取数据，爬取诗词胖排行榜（ https://www.shicimingju.com/paiming）中的标题。1.新建文件夹scrapy starproject 文件名（wallpaper）2.新建...【详细内容】

2021-10-21　　Tags: 爬虫点击:(62)　　评论:(0)　　加入收藏

python爬虫入门，带你爬取彩票开奖数据，和写入文件操作

回顾python学习历程，感慨良多，这门语言实在是太强了，当然，分支也很多，有的在做安全，有的在做数据，有的在做爬虫，本文就笔者本身的爬虫入门的小经验分享给读者，期待各位在学习python的...【详细内容】

2021-08-11　　Tags: 爬虫点击:(81)　　评论:(0)　　加入收藏

Python爬虫快速入门，BeautifulSoup基本使用及实践

来源：Python数据之道作者：Peter整理：阳哥大家好，我是阳哥。今天来跟大家分享用 BeautifulSoup 获取信息的一些知识点，文章内容由公众号读者 Peter 创作。欢迎各位童鞋向公众号投...【详细内容】

2021-06-23　　Tags: 爬虫点击:(134)　　评论:(0)　　加入收藏

不能爬小程序，叫什么会爬虫

上次写的如何给小孩约马术课过程，见这里 Python 约课[1]，本想一劳永逸，但是好景不长，预约系统升级了，而且还换了服务商，从之前的公众号 H5 应用，换成了小程序，之前编写的方式直接失...【详细内容】

2021-05-07　　Tags: 爬虫点击:(261)　　评论:(0)　　加入收藏

爬虫不使用代理IP会出现什么的情况

众所周知，代理IP可以助力爬虫工作更好的进行，很多人认为：如果没有代理IP，爬虫工作寸步难行。那么，如果爬虫不使用代理IP会出现什么情况呢？一、小型爬虫：可有可无爬几百篇文章，几百...【详细内容】

2021-05-07　　Tags: 爬虫点击:(157)　　评论:(0)　　加入收藏

Python高级反爬虫类型(App反爬虫)

前言将爬虫的爬取过程分为网络请求，文本获取和数据提取3个部分。信息校验型反爬虫主要出现在网络请求阶段，这个阶段的反爬虫理念以预防为主要目的，尽可能拒绝反爬虫程序的请...【详细内容】

2021-04-20　　Tags: 爬虫点击:(452)　　评论:(0)　　加入收藏

终于有人把Scrapy爬虫框架讲明白了

导读：Scrapy由Python语言编写，是一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取出结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试...【详细内容】

2021-04-13　　Tags: 爬虫点击:(335)　　评论:(0)　　加入收藏

一文弄清Python网络爬虫解析库！内含多个实例讲解

在了解爬虫基础、请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后，可能大家还对超长的正则表达式记忆犹新，设想如果想要匹配的条目更加多那表达式长度将会更加恐怖，这显然...【详细内容】

2021-04-12　　Tags: 爬虫点击:(262)　　评论:(0)　　加入收藏

▌简易百科推荐

20条JavaScript代码简洁的写法

1、通过条件判断给变量赋值布尔值的正确姿势// badif (a === 'a') { b = true} else { b = false}// goodb = a === 'a'2、在if中判断数组长度不为零...【详细内容】

2021-12-24　　Mason程　　　　Tags:JavaScript 　点击:(6)　　评论:(0)　　加入收藏

前端新手必备常用JavaScript方法函数大全

给新手朋友分享我收藏的前端必备javascript已经写好的封装好的方法函数，直接可用。方法函数总计：41个；以下给大家介绍有35个，需要整体文档的朋友私信我，1、输入一个值，将其返回数...【详细内容】

2021-12-15　　未来讲IT　　　　Tags:JavaScript 　点击:(20)　　评论:(0)　　加入收藏

js常用的工具函数大汇总

1. 检测一个对象是不是纯对象，检测数据类型// 检测数据类型的方法封装(function () { var getProto = Object.getPrototypeOf; // 获取实列的原型对象。 var class2type =...【详细内容】

2021-12-08　　前端明明　　　　Tags:js 　点击:(23)　　评论:(0)　　加入收藏

Javascript的New、Apply、Bind、Call知多少

作者：一川来源：前端万有引力 1 写在前面Javascript中的apply、call、bind方法是前端代码开发中相当重要的概念，并且与this的指向密切相关。本篇文章我们将深入探讨这个关键词的...【详细内容】

2021-12-06　　Nodejs开发　　　　Tags:Javascript 　点击:(19)　　评论:(0)　　加入收藏

快速了解JavaScript的DOM模型

概述DOM全称Document Object Model，即文档对象模型。是HTML和XML文档的编程接口，DOM将文档（HTML或XML）描绘成一个多节点构成的结构。使用JavaScript可以改变文档的结构、样式和...【详细内容】

2021-11-16　　海人为记　　　　Tags:DOM模型　点击:(35)　　评论:(0)　　加入收藏

jQuery知识整理

入口函数 /*js加载完成事件*/ window.onload=function(){ console.log("页面和资源完全加载完毕"); } /*jQuery的ready函数*/ $(document).ready(function(){ co...【详细内容】

2021-11-12　　codercyh的开发日记　　　　Tags:jQuery 　点击:(36)　　评论:(0)　　加入收藏

Javascript的应用-判断浏览器兼容性和收藏网页

一、判断是否IE浏览器（支持判断IE11与edge）function IEVersion() {var userAgent = navigator.userAgent; //取得浏览器的userAgent字符串var isIE = userAgent.indexOf("comp...【详细内容】

2021-11-02　　V面包V　　　　Tags:Javascript 　点击:(40)　　评论:(0)　　加入收藏

项目中不可忽视的JavaScript优化技巧

Null、Undefined、空检查普通写法： if (username1 !== null || username1 !== undefined || username1 !== '') { let username = username1; }优化后...【详细内容】

2021-10-28　　前端掘金　　　　Tags:JavaScript 　点击:(51)　　评论:(0)　　加入收藏

1分钟搞懂什么是 JS 代理对象（proxies）

今天我们将尝试下花 1 分钟的时间简单地了解下什么是 JS 代理对象（proxies）？我们可以这样理解，JS 代理就相当于在对象的外层加了一层拦截，在拦截方法里我们可以自定义一些个性化...【详细内容】

2021-10-18　　前端达人　　　　Tags:JS 　点击:(51)　　评论:(0)　　加入收藏

23 个超实用 JS 技巧

带有多个条件的 if 语句把多个值放在一个数组中，然后调用数组的 includes 方法。// bad if (x === "abc" || x === "def" || x === "ghi" || x === "jkl") { //logic } // be...【详细内容】

2021-09-27　　羲和时代　　　　Tags:JS 　点击:(58)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游

JS逆向方法论-反爬虫的四种常见方式

一 、JS写cookie

二、JS加密ajax请求参数

三、JS反调试（反debug）

四、JS发送鼠标点击事件

一、JS写cookie