既然我们重点谈论的是安全,那么从安全设计和治理角度来说,一般可遵从的是《信息安全应急响应计划规范》,而最直接的方法就是从信息系统的CIA三个基本特性入手,进行风险识别与分析。大家还记得那个“魔性”的PDCA(plando check act)吗?所以说还是那个原则:对于处置流程和应急预案要定期rehearsal和update。
另外,运维人员应该更注重的是事后分析和防止重现。因此从管理的角度,应该每月产生案子汇总的详细报表(如下图所示)、举行事件管理会议对发生的事件从多维度进行分析和评估;而有条件的话,应该每半年对现有流程进行回顾,回顾内容包括流程关键衡量指标、执行效率,跟踪验证支持工具的有效性,提出与时俱进的改进流程。
还记得哥在本漫谈的开篇就抛出的那个写作提纲吗?现在我把事件/问题管理和下次将要讲到的配置管理和变更管理的关系给大家提前啰嗦一下:事件/问题管理需要从配置管理数据库中查询配置项的属性和配置项间的关联关系来定位故障和帮助快速的恢复。
鉴于变更可能引发事件而且可能波及不止一个用户,因此呼叫中心应当及时了解变更管理流程中所涉及到的正在发生的变更信息,并更新至热线电话的greeting里让用户打进来后就能第一时间获知。而在事件的解决过程中,如果涉及到需要对基础架构、应用系统或者是网站页面等进行变更时,一定要通过发起变更请求这样的变更流程来正确解决。