
中国石油天然气集团公司企业标准
Q/SY 1331.4—2010
信息系统运维管理规范第4部分:事件管理
Specifications for information system operation management-
Part 4: Incident management
2010—08-01实施
2010—05—25发布
中国石油天然气集团公司 发布
目 次
前言 1. 范围 2 术语和定义角色
..
3 4
流程 5指标附录A(资料性附录)事件管理指标参考文献
6
前言
Q/SY1331《信息系统运维管理规范》分为七个部分:
第1部分:导则;第2部分:热线帮助;一第3部分:监控管理; -第4部分:事件管理;第5部分:问题管理; -第6部分:变更管理;第7部分:配置管理。
本部分为Q/SY1331的第4部分。 本部分的附录A为资料性附录。 本部分由中国石油天然气集团公司信息技术专业标准化技术委员会提出并归口。 本部分起草单位:中国石油勘探开发研究院。 本部分主要起草人:张、贾文清、于爱丽、谢丽红、王亦然。
信息系统运维管理规范第4部分:事件管理
1范围
Q/SY1331的本部分规定了中国石油天然气集团公司(以下简称“中国石油”)信息系统运维管理过程中事件管理的目标、流程、角色职责和相关指标。
本部分适用于中国石油范围内已正式上线的信息系统运维管理工作。 2术语和定义
下列术语和定义适用于Q/SY1331的本部分。
2.1
事件incident 非计划中的信息系统服务中断或信息系统服务质量的下降,包括系统崩溃、软件事件、影响用户
业务操作和系统正常运作的事件,以及其他影响业务流程的情形。 2. 2
事件管理incident management 为确保信息系统尽快恢复正常工作状态而设计的流程。强调快速响应、快速恢复、使事件对业务
的影响降低至最小化。 3角色
事件管理角色分为事件管理负责人与事件支持组。 3.1事件管理负责人
事件管理负责人的主要职责包括: a)制定事件管理流程。 b)制定事件处理记录。 c)监控事件管理流程的进度与服务质量。 d)开发并维护事件处理支持工具。 e)处理与追踪重大事件。
3.2事件支持组
事件支持组的主要职责包括: a)记录事件细节。 b)对事件匹配归类。 c)依据事件处理模板解决事件。 d)对事件状态进行调查和诊断。 e)处理普通非技术性和一般性技术性事件。 f)上报重大事件并协助解决。 g)跟踪事件处理进展。 h)与用户保持进展通报。 i)关闭已解决事件。 j)应用和维护事件处理支持工具。
k)定义事件处理记录。 4流程
事件管理流程图如图1所示。
监控管理
热线帮助
事件识别
事件记录
事件优先级
件处理流程
金楼
常规事件处理方案
重大事件分析1 源调配
事件处理记录?
重大事件处理方案
香常规事件分析
重大事件解决
常规事件解
变更管理 决和恢复
重大事件恢复
需要变更?
事件升级
配置管理
否
事件信息记录
事件关闭
图1事件管理流程图
4.1事件识别
事件识别用于对事件或潜在事件进行实时监控,尽可能在对业务造成影响之前将其识别,将影响
减少至最低。此流程是监控管理与事件管理流程之间的衔接。 4.2事件记录
事件支持组应配合热线帮助小组对所有接收到的事件和服务请求进行详细记录,确保无任何遗漏。
事件记录应包括以下信息: a)唯一参考号。 b)事件描述。 c)事件分类。 d)事件紧迫度。 e)事件影响度。 f)事件的优先次序。 g)记录日期和时间。 h)记录事件的人员身份。 i)报告事件的人员身份(包括姓名、部门、位置和联系详细信息)。 i)事件报告的方式(电话、电子邮件等)。 k)受影响的相关设备和系统的详细信息, 1)系统错误信息和错误代码。 m)事件诊断和处理流程。 n)事件通报内容。 o)解决时间。 p)事件关闭。 以上信息是一个事件发生后需要记录的信息全集,信息的填写贯穿整个事件管理流程,最后在事
件关闭阶段完成。 4.3事件优先级判定
优先级确定:事件分类完成后,事件支持组应对事件进行优先级分配,确定处理事件的先后顺序。
事件的优先级可分为高、中、低三个级别: a)高:影响到大部分用户工作的事件,例如系统崩溃、网络瘫痪和全局性安全问题;影响到部
分要害部门用户,例如严重影响财务部门进行账务处理的问题。 b)中:影响到部分用户工作的事件,如发生在部分用户的系统遭遇非法人侵和病毒攻击等
情形。 c)低:影响到个别用户工作的事件,如个人计算机硬件事件。 重大事件应依据高影响度和高紧迫性进行综合判定。事件支持组在认为必要时通知事件管理负责
人,由事件管理负责人确认是否将事件定义为重大事件后,依照重大事件的流程进行处理。 4.4常规事件处理流程 4.4.1常规事件处理方案
对于具有经常性、复发性的事件,可定义标准的事件处理记录。事件处理记录将事件解决流程中的步骤进行提前定义,当相应的事件发生时依照记录进行处理。同时也可使用支持工具对相应流程进行管理,以确保常规事件基于记录中预定义的计划进行解决。
事件处理记录应包括以下内容: a)事件处理步骤。 b)职责描述。 c)完成事件处理的相关时间限定。
d)升级程序。 事件支持组依据事先制定的常规事件处理记录解决常规事件,如遇到无常规事件记录或超出小组
专业水平的事件,立即安排给具有更高专业水平和技术能力的支持小组。事件支持组将对事件进行调查并加以解决。如无法解决,则转交给其他支持人员。 4.4.2常规事件分析
如果常规事件未能通过事件处理记录解决,则需要启动事件调查分析流程,事件的调查和分析包括以下活动:
a)完整记录所收集的信息。 b)明确相关事件的先后顺序。 c)确认事件的总体影响,包括影响数量和影响范围。 d)确认事件源。 e)搜索配置管理库、查找以往事件记录或制造商/供应商的错误日志。 f)访谈用户。 事件调查分析在监控管理人员的配合下进行,并制定出相应的解决方案。
4.4.3常规事件解决和恢复
解决方案应进行充分测试才能实施,如需进行变更,则提报监控管理负责人统一调度变更请求的执行。解决方案实施成功后,应及时更新相关事件信息,调整事件状态并将记录反馈给配置管理。同时通知热线帮助在系统中记录下事件的解决方案。解决和恢复应通过如下方式:
a)指导用户直接进行本地处理或远程处理。 b)热线帮助工作人员执行恢复活动。 c)技术人员执行恢复活动。 d)专家和第三方执行恢复活动。
4.4.4事件升级
事件升级包含以下两种类型: a)功能性升级:技术和应用层面的升级,即安排更多的技术人员和专家或授予更多的权限(技
术方面)以解决事件。 b)结构性升级:管理和协调层面的升级,即通过更高的管理层协调更多的资源来处理事件。结
构性升级由事件管理负责人向信息系统管理部门提交申请。 事件级别由事件管理负责人判断确定。事件支持组成员应及时响应和处理分配到自身的事件,在
规定的时间内不能解决时,对问题进行升级处理,由事件管理负责人协调资源,并督促事件能够及时被响应和处理。对于重大事件,事件支持组应立即报告到事件管理负责人,由事件管理负责人启动重大事件处理流程。 4.5重大事件处理流程
重大事件必须由一个独立的流程来解决。 重大事件处理流程应在事件管理负责人直接领导或协调下,成立独立的重大事件处理团队,专门
解决某一事件。
如果在处理事件的同时需要调查事件的原因,则问题管理负责人和监控管理负责人应参与其中。 事件管理负责人确保事件恢复。问题管理负责人开展问题原因的调查工作。监控管理负责人负责支持各项工作的开展,提供必要的信息和人力资源的协调。热线帮助工作人员负责所有相关活动的记录,并随时向用户通报事件解决的进展情况。
重大事件处理流程应包括以下几个方面: a)任命重大事件负责人。 b)组建重大事件恢复小组。