您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

恶意爬虫防护

时间:2023-09-06 11:22:11  来源:京东云开发者  作者:

引言

 

如果您仔细分析过任何一个网站的请求日志,您肯定会发现一些可疑的流量,那可能就是爬虫流量。根据 Imperva 发布的《2023 Imperva Bad Bot Report》在 2022 年的所有互联网流量中,47.4% 是爬虫流量。与 2021 年的 42.3% 相比,增长了 5.1%。在这些爬虫流量中,30.2% 是恶意爬虫,比 2021 年的 27.7% 增长了 2.5%。

从国内外公开的数据中可以得出,恶意爬虫几乎出现在各个行业,无论是传统行业、泛互联网,还是政企、金融等,都各种程度遭受着爬虫的攻击,并且爬虫流量还在逐年增长。

大部分正常的爬虫可以帮助我们提高生产力,而恶意的爬虫不仅会造成数据泄漏还会影响正常用户体验。合适的反爬服务可识别恶意爬虫并拦截,京东云 WAF 的 BOT 管理提供了多种爬虫防护功能。

恶意爬虫的危害

爬虫(Web Crawler),又称网络爬虫、网络蜘蛛、网页蜘蛛,是一种自动化程序或脚本,用于在互联网上自动地获取网页内容,并从中提取信息。

爬虫分为合法爬虫和非法爬虫或恶意爬虫。合法爬虫是遵守网络道德和法律规定,以合法、合规和友好的方式运行的网络爬虫。这些爬虫在进行数据采集和信息获取时,遵循网站的 robots.txt 协议,尊重网站的隐私政策和使用条款,以及遵守相关的法律法规。合法爬虫的目的通常是为了收集网站上公开可见的信息,并且爬取的频率和速率是合理且可控的。这些爬虫的使用符合网站的访问规则,不会对网站造成严重的带宽压力或资源浪费。例如平时我们用的百度、必应等搜索引擎就离不开爬虫,搜索引擎爬虫每天会在网络上爬取大量的网页进行分析处理收收录,当用户通过关键词搜索时,就会按照一定的排序把相关的网页快照展现给用户。

恶意爬虫是一类不遵守网络道德和法律规定,以非法、破坏性或有害的方式运行的网络爬虫。这些爬虫通常不遵循网站的 robots.txt 协议、不尊重网站的隐私政策,以及不遵守网站的使用条款和服务协议。恶意爬虫的目的可能包括但不限于:

  • 漏洞探测:攻击者利用爬虫程序扫描网站寻找漏洞,利用漏洞可实现网站提权安装后门等。
  • 数据盗取:攻击者部署爬虫非法的方式获取网站的敏感数据、个人信息、商业机密等,可用于欺诈、垃圾邮件、身份盗窃等不良用途。
  • 刷票、薅羊毛:攻击者通过爬虫程序抢优惠券、秒杀商品等,影响活动效果。密码撞库:大规模暴力破解或撞击密码,获取用户账户的访问权限,对网站用户的账户安全造成严重威胁。
  • 暴力破解:攻击者利用大规模僵死网络,高速、大规模攻击网站,导致服务器过载、带宽浪费,影响网站的正常运行。

综上,恶意爬虫对网站和企业影响严重,轻则影响网站正常运行重则影响企业正常运营。因此,通过部署反爬服务阻止恶意爬虫请求,保护网站免受威胁非常重要。京东云 WAF Bot 管理提供了多种爬虫防护手段,可有效帮你应对各种爬虫。

恶意爬虫防护 —— 京东云 WAF Bot 管理

京东云 WAF Bot 管理支持对爬虫程序进行甄别分类,并采取针对性的流量管理策略,例如,放行搜索引擎蜘蛛流量,对恶意爬取商品信息、秒杀价格、库存信息等核心数据进行阻断,还可以应对恶意机器人程序爬取带来的资源消耗、查询业务数据等问题。

京东云 WAF 提供了常见爬虫 UA 库,提供 11 大类上百种商业爬虫防护,可快速高效拦截这类爬虫。

京东云 WAF 提供了恶意 IP 惩罚,结合 Web 攻击防护利用大数据算法,可及时识别并拦截恶意 IP 扫描行为,有效防护漏扫描、文件遍历等爬虫行为。

京东云 WAF 反爬虫引擎利用算法和模型自动学习并分析网站请求流量,提供了宽松、正常、严格 3 种等级的防护模式,并支持配置配置观察、人机交互、拦截返回自定义页面等,可有效防护数据类爬虫和刷券类爬虫。

京东云 WAF 提供了账户安全,通过提取请求中的账号和密码自动分析,可有效防护弱密码探测、暴力破解和撞库攻击。

京东云 WAF 提供了 IDC 威胁情报,可拦截云上有过恶意行为的 IP 访问;伪造蜘蛛情报,可拦截伪装成搜索引擎蜘蛛的爬虫请求。

京东云 WAF 提供了伪造 UA 评分,可识别恶意爬虫伪装成浏览器的请求行为。

京东云 WAF 提供了自定义 BOT 规则,支持多种条件叠加、同时还可以叠加前端技术、叠加威胁情报,结合多维度频次统计,可灵活支持多种业务场景下的爬虫行为,为攻防对抗提供了可配性。

2023 年 H1,京东云 WAF 帮助云上多个客户防护了上亿次爬虫攻击,攻击的峰值 QPS 达到 20W+/s。攻击的手段和目的也多种多样,有挂小区基站 IP 池的、有伪装成正常用户的、有常态化扫描探测的、有刷优惠券的、有刷特价商品的、有爬商品价格的。

前段时间云 WAF 有个客户发优惠券,刚开始的时候刷子利用公有云的函数服务和云主机刷券,客户开启云 WAF 的 IDC 威胁情报轻松应对;刷子升级了策略使用了小区基站 IP 池伪装成 Chrome 浏览器用户大量的请求优惠券接口,指导客户开启了反爬虫引擎并配置了自定义 Bot 规则,平时的峰值 QPS 只有 2K,发券时候峰值 QPS 打到了 11W。5 分钟进来 1405W 请求,云 WAF 拦截了 1401W。其中被反爬虫引擎识别了 59%,被自定义 BOT 规则拦截了 38%,被威胁情报拦截了 3%,识别并拦截恶意爬虫率达到 99.7%。

总结

互联网上一半的流量来自于爬虫,如果您的网站没发现爬虫行为或者您的网站正遭受恶意爬虫攻击,那么您可以试试云 WAF 的爬虫管理,不仅可以帮您发现爬虫行为还可以帮您防护爬虫攻击。详细可以参考:官网文档。

 

作者:京东科技 李文强
来源:京东云开发者社区 转载请注明来源


Tags:爬虫   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
360 AI搜索App上线:基于“爬虫”抓取和用户提交数据
IT之家 1 月 29 日消息,360 AI 搜索 App 上线各大手机应用商城,当前版本为 1.0.0,安装包大小 27.4M,暂时没有收费选项。IT之家从官方描述获悉,当用户在 360 AI 搜索中输入任何问...【详细内容】
2024-01-30  Search: 爬虫  点击:(58)  评论:(0)  加入收藏
Python分布式爬虫打造搜索引擎
简单分布式爬虫结构主从模式是指由一台主机作为控制节点负责所有运行网络爬虫的主机进行管理,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了,在这个...【详细内容】
2024-01-25  Search: 爬虫  点击:(58)  评论:(0)  加入收藏
python 爬虫常用第三方库推荐
Python 是一种非常适合进行网络爬虫开发的语言,拥有丰富的第三方库和工具,可以方便快捷地实现各种爬虫需求。下面是好学编程总结的 Python 爬虫开发的一些常用步骤:1. 确定目标...【详细内容】
2023-12-29  Search: 爬虫  点击:(85)  评论:(0)  加入收藏
搜索引擎排名优化是针对蜘蛛爬虫还是对用户?
搜索引擎排名优化,这是一个让无数网站管理员、营销人员和创业者们既爱又恨的话题。有人认为它是提高网站知名度的关键,也有人觉得它不过是个劳神费力的无底洞。那么,这个看似神...【详细内容】
2023-12-28  Search: 爬虫  点击:(86)  评论:(0)  加入收藏
蜘蛛爬网络数据的用处•爬虫目的是什么
1.可以挖掘丰富资源:使用Baidu蜘蛛,可以挖掘互联网的无限资源。通过爬取各类网站,获得大量的比如新闻、文献、视频等等数据。如我们常常需要查找大量的文献资料来支撑我们的研...【详细内容】
2023-12-26  Search: 爬虫  点击:(57)  评论:(0)  加入收藏
哪些网站爬虫有兴趣?怎样吸引到蜘蛛爬虫?
怎样更好地吸引百度蜘蛛爬取网站?想让蜘蛛抓取网站内容,想要吸引蜘蛛的青睐,需要很多技巧,下面带大家一起来了解一下。1.新站提交文章链接网站是新站的话,百度蜘蛛自然是不太感兴...【详细内容】
2023-12-18  Search: 爬虫  点击:(96)  评论:(0)  加入收藏
学透这10个Python爬虫框架,轻松爬取一切数据
什么是Python爬虫框架?就像超市里有卖半成品的菜一样,Python爬虫工具也有半成品,就是Python爬虫框架。就是把一些常见的爬虫功能的代码先写好,然后留下一些借口。当我们在做不同...【详细内容】
2023-12-08  Search: 爬虫  点击:(231)  评论:(0)  加入收藏
移动端Python爬虫实战
移动端Python爬虫实战Python爬虫是指利用Python编程语言编写的程序,用于自动从互联网上获取信息。通过模拟人的行为,Python爬虫可以访问网页、抓取数据,并将数据保存到本地或...【详细内容】
2023-11-25  Search: 爬虫  点击:(212)  评论:(0)  加入收藏
Python爬虫神器:Beautiful Soup指南,轻松解析网页数据!
Beautiful Soup(简称BS4)是一种强大而灵活的HTML和XML解析库,广泛用于Python爬虫和数据采集中。这篇文章介绍 Beautiful Soup的功能和用法,并提供示例代码,帮助你更好地理解和应...【详细内容】
2023-10-22  Search: 爬虫  点击:(116)  评论:(0)  加入收藏
Python爬虫常用的库,这些你都用过吗?
在信息时代,数据是无处不在的宝藏。从网页内容、社交媒体帖子到在线商店的产品信息,互联网上存在着大量的数据等待被收集和分析。Python爬虫是一种强大的工具,用于从互联网上获...【详细内容】
2023-10-21  Search: 爬虫  点击:(103)  评论:(0)  加入收藏
▌简易百科推荐
即将过时的 5 种软件开发技能!
作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈(微信号:blog51cto) 时至今日,AI编码工具已经进化到足够强大了吗?这未必好回答,但从2023 年 Stack Overflow 上的调查数据来看,44%...【详细内容】
2024-04-03    51CTO  Tags:软件开发   点击:(5)  评论:(0)  加入收藏
跳转链接代码怎么写?
在网页开发中,跳转链接是一项常见的功能。然而,对于非技术人员来说,编写跳转链接代码可能会显得有些困难。不用担心!我们可以借助外链平台来简化操作,即使没有编程经验,也能轻松实...【详细内容】
2024-03-27  蓝色天纪    Tags:跳转链接   点击:(12)  评论:(0)  加入收藏
中台亡了,问题到底出在哪里?
曾几何时,中台一度被当做“变革灵药”,嫁接在“前台作战单元”和“后台资源部门”之间,实现企业各业务线的“打通”和全域业务能力集成,提高开发和服务效率。但在中台如火如荼之...【详细内容】
2024-03-27  dbaplus社群    Tags:中台   点击:(8)  评论:(0)  加入收藏
员工写了个比删库更可怕的Bug!
想必大家都听说过删库跑路吧,我之前一直把它当一个段子来看。可万万没想到,就在昨天,我们公司的某位员工,竟然写了一个比删库更可怕的 Bug!给大家分享一下(不是公开处刑),希望朋友们...【详细内容】
2024-03-26  dbaplus社群    Tags:Bug   点击:(5)  评论:(0)  加入收藏
我们一起聊聊什么是正向代理和反向代理
从字面意思上看,代理就是代替处理的意思,一个对象有能力代替另一个对象处理某一件事。代理,这个词在我们的日常生活中也不陌生,比如在购物、旅游等场景中,我们经常会委托别人代替...【详细内容】
2024-03-26  萤火架构  微信公众号  Tags:正向代理   点击:(10)  评论:(0)  加入收藏
看一遍就理解:IO模型详解
前言大家好,我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢,先问问大家几个问题哈~什么是IO呢?什么是阻塞非阻塞IO?什么是同步异步IO?什么是IO多路复用?select/epoll...【详细内容】
2024-03-26  捡田螺的小男孩  微信公众号  Tags:IO模型   点击:(8)  评论:(0)  加入收藏
为什么都说 HashMap 是线程不安全的?
做Java开发的人,应该都用过 HashMap 这种集合。今天就和大家来聊聊,为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说,HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】
2024-03-22  Java技术指北  微信公众号  Tags:HashMap   点击:(11)  评论:(0)  加入收藏
如何从头开始编写LoRA代码,这有一份教程
选自 lightning.ai作者:Sebastian Raschka机器之心编译编辑:陈萍作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大...【详细内容】
2024-03-21  机器之心Pro    Tags:LoRA   点击:(12)  评论:(0)  加入收藏
这样搭建日志中心,传统的ELK就扔了吧!
最近客户有个新需求,就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计,所以访问情况,只能通过日志查看,通过脚本的形式给客户导出也不太实际,给客户写个简单的...【详细内容】
2024-03-20  dbaplus社群    Tags:日志   点击:(4)  评论:(0)  加入收藏
Kubernetes 究竟有没有 LTS?
从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年,一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】
2024-03-15  云原生散修  微信公众号  Tags:Kubernetes   点击:(6)  评论:(0)  加入收藏
站内最新
站内热门
站内头条