执行事故管理

时间：2023年5月6日星期六

作者：小王

一、定义事故
二、事故管理步骤

一、定义事故

1.事故（incident）是指对组织资产的CIA产生负面影响的任何事件（event）。

2.安全事故（security incident）是危害计算机或网络安全的某个方面的任何有害事件（event），出自RFC 2350。

3.安全事故（security incident）是违背或即将违背计算机安全策略、可接受使用策略或标准安全实践规范的情况，出自 NIST SP 800-61。

TIPs：安全事件（event）和安全事故（incident）如果做区分的话，事件指的是还未确定真实发生的事件（存在误报可能），事故指的是确定已真实发生的事件（经过确认和定性）。

二、事故管理步骤

事故管理是一个持续性活动，不包含针对攻击者的反击活动（违法行为）。

1.检测（detection）

通过检测工具（如IPS）或人工上报的方式通知IT专家，事件经过误报过滤后确定事故，并指定事故的严重级别。

2.响应（response）

计算机事故响应小组（CIRT）或计算机安全事故响应小组（CSIRT）用于应对重大安全事故，小型安全事故第一检测人可直接自行处理。

事故响应速度越快，其产生的影响越小。

事故通常会进行追责，因此从响应过程开始就需要对证据进行保护。

3.抑制（mitigation）

有效的事故管理目标之一是限制事故的影响或范围，如将中病毒的主机进行隔离。

4.报告（reporting）

将安全事故上报高级管理层或外部监管机构。报告对象取决于安全事故的性质，如果仅涉及组织自身则可能为了声誉不会上报给监管机构，但涉及到用户个人信息，则需要遵循隐私保护政策及时上报监管机构（72小时内）。还有一种情况，是由于员工自身能力问题，导致没有将事件定性为事故，进而导致事故发展蔓延、影响范围扩大，需进行员工培训解决。

5.恢复（recovery）

恢复系统或使其恢复到全功能状态。基于事故严重程度，执行的恢复操作也不同，为防止恶意代码的存留，最佳选项是重建系统。重建系统时组织的配置管理和变更管理显得尤为重要，可以确保系统重建后配置是正确的。需要双重复查的内容有：访问控制、服务和协议、补丁、用户账户、合规性。

6.补救（remediation）

安全人员执行根本原因分析（root cause analysis），采取措施防止事故再次出现。

7.经验教训（lessons learned）

安全人员回顾整个事故的过程，总结经验教训，编写报告提供改进意见提交高级管理层。

TIPs：通过检查表、培训等方式指导员工参与事故响应，可以提高响应速度、降低事故影响，即不再将事故响应全权交由安全人员负责。

每个组织对事故响应步骤的划分可以不一样，但核心动作都是存在，如NIST SP 800-61中事故响应生命周期的步骤为4个：1.准备；2.检测和分析；3.遏制、根除和恢复；4.事故后活动。