春节期间,德国石油储存公司 Oiltanking 遭到黑客组织的持续网络攻击。由此,让我们来讨论一下如何区别对待事件响应与事件管理。
作者丨陈峻
策划丨孙淑娟
不知您是否留意到,我们这边正在举国上下欢庆春节和冬奥会开幕之时,远在欧洲大陆的德国却传来了,其主要石油储存公司 Oiltanking,以及矿物油贸易公司 Mabanaft 的 IT 系统遭到黑客组织的持续网络攻击。由于他们的储罐装 / 卸载过程,完全依赖于已被攻击下线的计算机系统,因此无法从自动化退回到手动操作模式。此次中断预计会给整个供应链造成严重的影响。
遥想 2021 年 5 月,DarkSide 黑客集团也曾利用勒索软件,攻击了美国最大燃油管道公司 Colonial Pipeline,并引起了油气管道的计量系统无法运行,进而中断服务。面对这些屡禁不止的恶意安全事件,我不禁利用这个春节长假中,再次思考了事件响应与事件管理的相关问题。
面对突发的各种网络安全事件,我们通常考虑的是如何在最短的时间内,去消除事件的影响,甚至会眉毛胡子一把抓、病急乱投医。不过,实际上事件响应(Incident Response,IR)和事件管理(Incident Management,IM)是两种截然不同的处置方式。理清它们之间的区别,将有助于我们从根本上更好的管控安全事件。
众所周知,事件响应离不开响应团队成员和应手的工具。常言道:“知己知彼,百战不殆。”一套清晰全面的威胁模型,可以被用来详细定义不同类型的安全威胁,概述组织会采取哪些略有区别地响应措施,以及涉及到的角色和责任等。面对可以预见的网络、系统和应用等维度的安全威胁,业界常用 STRIDE 威胁建模,来识别潜在的漏洞,并建立响应机制。该模型包含了六种不同的威胁类别:
尽管 STRIDE 是目前最为流行且有效的威胁建模与安全设计框架,不过如果您觉得它有些陈旧的话,则可以参考最新的零信任网络(zero trust networks,ZTN)安全模型。它秉承的是“从不信任,始终验证”的概念,即:在任何用户、资源或资产都是不可信的前提下,通过消除隐含的信任关系,并不断验证每个阶段的交互过程,来保护目标组织和应用系统。
无论是被部署在云端,还是在本地,零信任网络作为一种持续评估和验证的关键性流程组件,可以在检测过程中,为响应团队提供有关的可疑访问请求、以及事件本身的详细信息。我们可以通过如下方面对各类网络攻击,做出及时响应,并最大限度地减少损害。
当然,没有一种完全模型能够完美到“团灭”所有的威胁、或“包治百病”。我们应当根据实际情况,选用、调整或自定义某一种、或混用各种安全模型的用例,通过缩小信任区域范围,制定出更快、更有效的响应计划。
光有定性的识别模型显然是不够的,我们在实践中还需要有定量的指标等级,以便滤除“噪声”,界定和分析事件。
从表面上看,严重性高的事件通常需要快速的响应,但是实际情况并非一成不变。由于在事件响应的过程中,我们往往推崇的是“快速生效”。因此,对于某些低严重性事件而言,如果它们需要调用的资源较少,能够立竿见影,起到迅速遏制事件在范围与程度的效果,那么我们就可以将其视为高优先级的处置目标,予以快速修复。可见,事件的严重程度并不能完全决定了事件的优先级,我们需要从业务的角度,多方面综合考虑。
当然,最为稳妥的方法应该是:以事件对于业务的影响程度,来界定严重性级别。无论是服务级别目标(Service Level Object,SLO)也好,还是服务级别约定(Service Level Agreement,SLA)也罢,它们都直接影响着我们去确定安全事件的严重性与优先级,并且会影响到如何配置人员与资源,以及是否按需升级响应等级。在此,我以一个 App 的页面平均加载时间为例,向您展示严重性与响应的关系:
严重程度 |
状况 |
客户影响 |
涉及到利益相关方 |
1 |
页面无法加载 |
客户无法使用应用服务违反SLA |
响应团队执行应急方案,各部门展开排查,告知管理层 |
2 |
页面加载速度慢200% |
服务响应极慢,客户失去使用意愿 |
应急响应团队协同运维团队排查,并向客户发出警告 |
3 |
页面加载速度慢50% |
服务响应缓慢,客户产生抱怨 |
运维团队排查 |
4 |
页面加载速度慢1%-10% |
大部分客户未注意到 |
将事件录入事件管理系统,但无需立即升级或发出警告 |
通常,我们应当事先制定好一个包含了事件影响范围和程度的等级关系矩阵。运维人员和应急响应人员可以将收集到的指标参数,对应到事先明确定义好的取值范围中,进而通过客观且公式化结合方式(或是相乘、或是相加),来确定其严重性。
如前文所述,事件管理比事件响应更加“高屋建瓴”,是一整套实践流程和解决方案。它不但需要组织能够管理好安全事件的发展走势,而且可以满足所处环境中日益严苛的数据合规要求。此外,它还能够让各个利益相关方通过规范化的流程,避免同类事件的复发。
常言道:“凡事预则立,不预则废。”事件管理切忌临时抱佛脚。我们应当事先构建好一个“召之即来,来之能战”的团队。在实践中,一些组织会片面地认为安全事件处理只和那些谙熟日常运维的技术大咖有关。但其实,若要真正管理好事件,少不了安全、基础架构与运营(I&O)、以及管理层的调兵遣将与有效沟通。
如今已是大数据时代,我们担心的不再是得不到必要的数据指标,而是向我们涌来的数据是否有用、是否能够协助我们实施事件管理。以下便是一些常见的指标类别,它们有助于随着事件响应的逐步推进,各方更好地把控安全事件的全局:
俗话说:“工欲善其事,必先利其器。”优秀的工具往往能够协助我们进行事件的跟踪、记录、处置、以及最终的绩效考评。在管理事件时,我们通常会用到如下两类工具:
我们常说,没有总结就没有进步。事后分析是事件管理的最后一个环节,也是不可或缺的部分。团队成员可以查阅过往的处置记录,回顾在整个响应过程中,本应该实施、却由于某种原因并未能实现或拖延执行的任务,以及由此导致的失误。据此,我们可以提高组织在如下方面的事件应对能力:
与此同时,通过撰写事后分析报告,主要利益相关方不但可以审查、并了解安全事件发生的根本原因,以及下一步相关部门与团队将如何通过整理,来防止此类事件的复发,而且能够督促响应团队不断改进事件的响应流程,优化事件的管理效果,将这些“增量”知识变为“存量”技能。
综上所述,无论事件响应计划、威胁建模、严重性划分、团队处置能力、以及指标与工具的使用,都会是一个需要不断查缺补漏的动态更新过程。无论您是事件响应团队成员,还是事件管理的相关方,都应该练就“不怕事,不避事,善处事”的心态,不要将安全事件视为挫折,而将其看作历练的机会。
陈 峻 (Julian Chen),51CTO 社区编辑,具有十多年的 IT 项目实施经验,善于对内外部资源与风险实施管控,专注传播网络与信息安全知识与经验;持续以博文、专题和译文等形式,分享前沿技术与新知;经常以线上、线下等方式,开展信息安全类培训与授课。