网站反爬指南：政府网站篇

时间：2022-12-21 15:51:15 来源：今日头条作者：业务安全专家

网络爬虫正在成为政务网站们最大的威胁之一。

随着网络安全被提升到国家层面，网站安全管理和防护日趋重要，政务网站既要确保网站信息的及时和准确，又要能应对网络恶意攻击等安全事件。目前，政务服务广泛分布在交通、社保、民政、旅游、公共安全等多个领域，数据数量大、且大多和国计民生紧密关联，涉及公民个人隐私、企业商业秘密等信息，数据开放性需求带来其附加价值高。一旦遭到攻击，后果不堪设想。

比如，2019年，最高人民法院发布的《关于“中国裁判文书网”网站建设建议的答复》提到，“大量技术公司通过爬虫系统无限制地访问非法获取裁判文书数据，造成网站负荷过大，大量正常用户请求堵塞，访问出现速度慢或部分页面无法显示等现象。”

此外，数据显示，在针对网站的攻击中，60%的攻击对象均是政务类网站，攻击方式也是花样频出，其中国内政府网站40%—60%的网络流量均来自爬虫，在提供公众查询的服务性网站业务中，这一比例甚至更高。

图源网络

黑灰产为何盯上政务网站？

网络爬虫，又被称为网页蜘蛛，网络机器人，是按照一定的规则，自动地抓取网络信息和数据的程序或者脚本。通俗点讲，网络爬虫模拟人的行为，用程序代替了人的操作，从一个链接跳转到下一个链接，就像是在网络上爬行一样遍历网页。爬虫跳转、打开、浏览等动作比人的速度快，浏览的网站的层次也更深，所以被称为网络爬虫。

顶象与中国信通院联合发布的《数字业务安全白皮书》认为，恶意网络爬取会带来数字资产损失、用户隐私泄露和扰乱业务正常运行等三大危害，并将其列为十大业务欺诈手段之一。

政务网站拥有大量的信息和数据以及需要较高的稳定性和可用性。而这类系统本身所拥有的大量信息，也成为攻击者觊觎的目标。

一方面，攻击者利用爬虫程序获取公开信息，产生大量请求，使得该政务服务网站无法响应请求，形成CC攻击，造成正常用户无法访问，或是查询服务体验下降。黑产可利用从该政务服务网站获取的信息进行对外收费查询业务，造成不良的社会影响。

另一方面，除了利用爬取数据进行牟利，更有甚者，直接挪用政府公众服务类网站所有网页及信息，进行网站克隆。克隆网站通常拥有与真实网站高度相似的域名和首页，用户一般难以辨认。然而当民众打开一个明为提供国计民生服务、实为不法平台的克隆网站，不仅会看到许多不堪入目的广告，甚至会在不知不觉中被引诱点击诈骗链接。

网络爬虫对政务网站的直接影响是，政府网站被大规模攻击后，网页打开缓慢、无法正常处理业务等问题会严重影响用户的使用。为此许多政府网站已经投入大量人力和资金，但在不断更新迭代的自动化攻击面前，改善并不明显。“爬虫攻击网站——系统宕机——用户投诉——耗资维护”这一过程似乎已经成为一种恶性循环。

如何反爬？

顶象反爬解决方案依托多年攻防对抗实战经验，提供了动态策略的精准防护；全链路纵深防护，避免“爬虫”的单点绕过；多维度防御，有效拦截各种恶意“爬虫”行为；无感的人机交互验证，有效反爬又不影响正常用户体验。

1、保障通信传输安全。黑灰产在业务通信传输的环节，可能会尝试篡改、爬取报文数据。通过对通讯链路的加密，可防止终端安全检测模块的数据被篡改和冒用。

2、加强业务安全策略防控。针对批量爬虫的风险特征，可将社交媒体中各个业务查询场景的请求接入业务安全风控系统。同时将终端采集的设备指纹信息、用户行为数据等传输给风控系统，通过在风控系统配置相应的安全防控策略，有效地对风险进行识别和拦截。

设备终端环境检测。识别客户端（或浏览器）的设备指纹是否合法，是否存在注入、hook、模拟器等风险。通常批量作弊软件大多都存在以上风险特征。
行为检测。基于设备行为进行策略布控。针对同设备高频查询，同IP高频查询，相同IP段反复高频查询的请求进行监控。
名单库维护。统计基于风控历史数据，对于存在异常行为的账号、IP段进行标注，沉淀到相应的名单库。对于名单表内的数据在做策略时进行分层，适当加严管控。
外部数据服务。考虑对接手机号风险评分、IP风险库、代理邮箱检测等数据服务，对于风险进行有效识别和拦截。

3、定期对平台、App的运行环境进行检测，对App、客户端进行安全加固，对通讯链路的加密，保障端到端全链路的安全。其次，部署基于顶象防御云、风控引擎和智能模型平台，构建多维度防御体系。

4、智能验证码。作为防御云的一部分，顶象智能验证码能够阻挡恶意爬虫盗用、盗取数据行为。并能够在注册、登录、查询时，对恶意账号、恶意爬取行为进行实时的核验、判定和拦截。

5、设备指纹。作为防御云的一部分，顶象设备指纹能够对代码注入、hook、模拟器、云手机、root、越狱等风险做到有效监控和拦截。

6、风控引擎。根据业务查询场景的请求、客户端采集的设备指纹信息、用户行为数据行为（鼠标的滑动轨迹、键盘的敲击速率、滑动验证码的滑动轨迹、速率、按钮点击等行为轨迹等），实现对恶意“爬虫”行为的有效识别，基于安全防控策略，有效地恶意爬取行为进行识别和拦截。

7、智能模型平台。基于业务、爬取风险与反爬策略变化，构建专属风控模型，实现安全策略的实时更迭，从而有效拦截各种恶意爬取风险。

免费试用业务安全产品（https://user.dingxiang-inc.com/user/register#/）

加入业务安全交流群（https://www.dingxiang-inc.com/blog/post/599）

Tags：反爬点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

系统掌握破解Web端反爬技术

系统掌握破解反爬技能------------------下栽地址：https://www.itwangzi.cn/2547.html------------------ User-Agent：每个浏览器或爬虫程序都有一个User-Agent标识，服务器可以...【详细内容】

2023-12-27　　Search: 反爬点击:(72)　　评论:(0)　　加入收藏

网站反爬指南：政府网站篇

网络爬虫正在成为政务网站们最大的威胁之一。随着网络安全被提升到国家层面，网站安全管理和防护日趋重要，政务网站既要确保网站信息的及时和准确，又要能应对网络恶意攻击等安全...【详细内容】

2022-12-21　　Search: 反爬点击:(282)　　评论:(0)　　加入收藏

爬虫反爬：JS逆向之某东参数

简介从上面两节实战中已经可以做一个属于自己的翻译应用了，甚至可以对翻译结果进行对比然后通过一些语意软件进行优化，这里的所有的DEMO都只是为了学习JS逆向这些技能的过程，今...【详细内容】

2022-08-03　　Search: 反爬点击:(380)　　评论:(0)　　加入收藏

爬虫总是断？用这个手残党也能轻松解决网站反爬

在使用爬虫的过程中，这些情况你是否遇到过？没采多久就采集不到数据了采集了好半天，最后发现采集的内容与网页中的内容不一致刚开始采集的好好的，再往后采集的数据有字段竟然是...【详细内容】

2022-05-20　　Search: 反爬点击:(563)　　评论:(0)　　加入收藏

某些音乐只能听一分钟？Python绕过反爬，完美下载音乐

开始此网站F费与M费通道共用，搞定M费通道即可。确立目标网址：点击进入进入到跳转页面：可以看到出现了咱们需要的一些音乐分析（x0）这些音乐的源文件地址是否在咱们的网...【详细内容】

2021-08-27　　Search: 反爬点击:(428)　　评论:(0)　　加入收藏

Python高级反爬虫类型(App反爬虫)

前言将爬虫的爬取过程分为网络请求，文本获取和数据提取3个部分。信息校验型反爬虫主要出现在网络请求阶段，这个阶段的反爬虫理念以预防为主要目的，尽可能拒绝反爬虫程序的请...【详细内容】

2021-04-20　　Search: 反爬点击:(1140)　　评论:(0)　　加入收藏

python高准确率滑动验证破解平台，提供免费api接口，解决反爬虫

滑动验证是网站反爬虫、反作弊的升级，滑动验证也是机器学习在反爬虫、反作弊领域的应用；本项目也是一个简单的全栈项目，使用tornado做的后端、Bootstrap4做的前端；核心的识别...【详细内容】

2020-06-04　　Search: 反爬点击:(298)　　评论:(0)　　加入收藏

5分钟看懂SVG反爬虫原理与绕过实战

SVG反爬虫不同于字体反爬虫，它巧妙的利用css 与 svg的关系，将字符映射到网页中，看起来虽然正常，但是却抓取不到有效内容。本文带你深入浅出，破了SVG反爬虫的套路，学会之后，可应用于...【详细内容】

2020-05-12　　Search: 反爬点击:(481)　　评论:(0)　　加入收藏

JS逆向方法论-反爬虫的四种常见方式

现在的网页代码搞得越来越复杂，除了使用vue等前端框架让开发变得容易外，主要就是为了防爬虫，所以写爬虫下的功夫就越来越多。攻和防在互相厮杀中结下孽缘却又相互提升着彼此。...【详细内容】

2020-01-17　　Search: 反爬点击:(467)　　评论:(0)　　加入收藏

Python破解各路反爬措施，强势采集拉勾网数据

拉勾网这个网页的反爬机制：保持cookie与网页来源的说明，如果不加网页的来源会造成一个IP频繁的假象。为什么说是假象呢？因为当你用浏览器再次访问是可以正常访问的，自行测试即可...【详细内容】

2019-10-11　　Search: 反爬点击:(699)　　评论:(0)　　加入收藏

▌简易百科推荐

访问网站显示不安全是什么原因？怎么解决？

访问网站时显示“不安全”，主要原因以及解决办法： 1.没用HTTPS加密：网站还在用老的HTTP协议，数据传输没加密，容易被人偷看或篡改。解决办法是网站管理员启用HTTPS，也就是给网站装...【详细内容】

2024-04-08　　JOYSSL爆爆　　　　Tags:网站　点击:(7)　　评论:(0)　　加入收藏

SSL证书过期后网站还能正常访问吗

当SSL证书过期后，尽管网站的服务器仍然可以处理请求并提供服务，但是浏览器会在尝试建立安全连接时检测到证书已过期，并显示警告信息告知用户该网站的安全证书已过期。这会严重...【详细内容】

2024-03-27　　　　见方天地　　Tags:SSL证书　点击:(12)　　评论:(0)　　加入收藏

HTTPS网站怎么实现

HTTP协议迁移到HTTPS，以提供更加安全的网络环境并增强用户信任。那么，如何将一个使用HTTP的网站安全升级到HTTPS呢？我们需要理解HTTP和HTTPS的区别。HTTP，即超文本传输协议，是一...【详细内容】

2024-03-27　　倏然间　　　　Tags:HTTPS 　点击:(6)　　评论:(0)　　加入收藏

SSL证书即将过期，不更新可以吗？

SSL证书是用来保护网站数据传输安全的重要工具，通过数据加密和身份认证两大功能，为网站提供了一个安全、可信的网络环境。由正规CA机构所颁发的SSL证书都具有一定的使用期限，通...【详细内容】

2024-03-27　　帝恩思DNS　　　　Tags:SSL证书　点击:(7)　　评论:(0)　　加入收藏

网站运营的好与坏主要决定因素是内容与seo优化

在这个信息爆炸的时代，网站如雨后春笋般涌现，如何在众多网站中脱颖而出，吸引更多的访问者，成为了每一个网站运营者关心的问题。我们不禁要问，是什么决定了网站运营的好与坏呢？答案...【详细内容】

2024-03-26　　易华合讯　　　　Tags:网站运营　点击:(10)　　评论:(0)　　加入收藏

网站制作不再难：小白也能上手的建站教程

在互联网高速发展的时代，网站已成为企业、个人展示自身形象和实力的重要窗口。过去，网站制作对于许多人来说是一项技术活，需要专业的知识和经验。但随着技术的进步，现在即便是没...【详细内容】

2024-03-24　　一度旭展互联网科技　　　　Tags:网站制作　点击:(6)　　评论:(0)　　加入收藏

想建个网站赚钱？先来看看这篇建站指南吧

随着互联网的飞速发展，越来越多的人希望通过建立自己的网站来实现创业梦想或者赚取额外的收入。但建站并非一蹴而就的简单事情，它需要综合策划、设计、技术和运营等多方面的知...【详细内容】

2024-03-21　　一度旭展互联网科技　　　　Tags:网站　点击:(6)　　评论:(0)　　加入收藏

个人站长的出路在哪？

个人站长的出路在于不断适应互联网的发展趋势，积极寻求创新和变革。以下是一些个人站长可以考虑的出路：转型为内容创作者：随着内容营销的兴起，越来越多的企业和个人开始注重内...【详细内容】

2024-02-29　　　　简易百科　　Tags:个人站长　点击:(39)　　评论:(0)　　加入收藏

网络环境和用户需求不断变化，个人站长该怎么办？

个人站长是一个相对特殊的群体，他们通常以个人身份独立运营网站，没有大型企业或组织的支持。由于缺乏资源和大企业的光环，个人站长需要更加注重策略和技巧，才能在竞争激烈的网络...【详细内容】

2024-02-29　　　　简易百科　　Tags:个人站长　点击:(39)　　评论:(0)　　加入收藏

AI时代个人站长还有出路吗？

AI时代，个人站长依然有出路，但需要进行一些调整和转型。首先，利用AI工具可以帮助个人站长提高效率和产出质量。例如，利用AI进行内容创作、智能推荐、用户画像分析等，可以大大提升...【详细内容】

2024-02-29　　　　简易百科　　Tags:个人站长　点击:(46)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对