您当前的位置:首页>行业标准>Q/SY 1331.5-2010 信息系统运维管理规范 第5部分:问题管理

Q/SY 1331.5-2010 信息系统运维管理规范 第5部分:问题管理

资料类别:行业标准

文档格式:PDF电子版

文件大小:19.11 MB

资料语言:中文

更新时间:2023-10-31 18:00:53



相关搜索: 系统 管理 信息 管理规范 系统 问题 部分 1331

内容简介

Q/SY 1331.5-2010 信息系统运维管理规范 第5部分:问题管理 中国石油天然气集团公司企业标准
Q/SY1331.5—2010
信息系统运维管理规范第5部分:问题管理
Specifications for information system operation management-
Part 5 : Problem management
2010—08—01实施
2010一05一25发布
中国石油天然气集团公司 发布 目 次
前言 1 范围 2 术语和定义 3 角色 4 流程 5指标附录A(资料性附录) 问题管理指标参考文献·
·.
.
X 前言
Q/SY1331《信息系统运维管理规范》分为七个部分:
第1部分:导则;第2部分:热线帮助;第3部分:监控管理;第4部分:事件管理;第5部分:问题管理;第6部分:变更管理;第7部分:配置管理。
本部分为Q/SY1331的第5部分。 本部分的附录A为资料性附录。 本部分由中国石油天然气集团公司信息技术专业标准化技术委员会提出并归口。 本部分起草单位:中国石油勘探开发研究院。 本部分主要起草人:张、贾文清、于爱丽、谢丽红、王亦然、李英浩、肖占禄、宋倩。
Ⅱ 信息系统运维管理规范第5部分:问题处理
1范围
Q/SY1331的本部分规定了中国石油天然气集团公司(以下简称“中国石油”)信息系统运维管理过程中问题管理的目标、流程、角色职责和相关指标。
本部分适用于中国石油范围内已正式上线的信息系统运维管理工作。 2术语和定义
下列术语和定义适用于Q/SY1331的本部分。
2.1
问题problem 由一项或多项事件导致的影响信息系统正常运行的结果。
2.2
问题管理problem management 为调查事件发生的潜在原因,制定解决方案并防止事件再次发生而设计的流程。强调查找事件发
生的根源,做好解决和预防工作。 3角色
问题管理角色分为问题管理负责人与问题支持组。 3.1问题管理负责人
问题管理负责人的主要职责包括: a)设计和维护问题管理流程。 b)对问题管理流程的效率和效能进行评估。 c)对问题支持组成员进行协调管理。
3.2问题支持组
问题支持组的主要职责包括: a)识别和分析问题。 b)分析信息系统运维特征并发现潜在问题。 c)对问题解决方案进行评估。 d)问题解决。 e)设计应急方案,协助完成常规事件处理记录。
4流程
问题管理流程图如图1所示。 4.1问题识别
问题支持组应定期通过监控管理、事件管理、配置管理、热线帮助等管理流程或其他渠道接收到问题后,对其进行评估,确定是否纳入问题管理范围。同时问题支持组应随时主动分析配置管理数据库以期发现潜在问题,可从以下渠道收集信息: 监控管理
热线帮助
事件管理
问题识别
问题记录
问题分类
问题优先级
问题调查
问题分析
问题信息
收集
方案设计
急方案
变更管理
A
配置管理
方案评估
方案实施
建立问题
记录
问题关闭
图1 问题管理流程图
a)外部供应商。 b)委托方。 c)系统日志文件。 d)事件和问题记录。 e)其他运行管理流程。 当符合以下任一情形,问题管理小组可将收到的问题正式纳入问题管理范围。 a)重大事件在配置管理数据库中没有记录。 b)分析显示一类事件重复发生。 c)多个相同特点的事件在配置管理数据库中没有记录 d)分析显示某一问题会在将来引起事件发生。 e)其他部门报告的潜在引发事件风险的问题。
4.2问题记录
问题支持组应对问题的详细情况进行记录。问题记录应包括以下信息: a)问题报告者及联系信息 b)与问题相关的事件数量及信息。 c)问题处理的日期和时间记录,包括:
1)问题被首次记录的时间; 2)记录更新的时间; 3)关闭的时间; 4)目标响应时间
d)问题的详细情况。 e)问题的类别。 f)优先级。 g)历史处理记录。 h)处理状态。 i)临时性应急方案。 j)永久性解决方案。
4.3问题分类
问题支持组应根据问题发生的关联领域对问题进行初步分类,类别可包括: a)IT服务。 b)信息系统。 c)中间设备。 d)操作系统。 e)硬件。 f)局域网。 g)基础设施。 h)网络出口。 i)其他。
4.4问题优先级
问题支持组应对问题优先级进行评估。按照问题的影响程度,信息技术问题可分为高、中、低三个级别:
a)高:影响到大多数用户工作的问题,例如系统崩溃、网络瘫和全局性安全问题;影响到部
分要害部门用户,如严重影响财务部门进行账务处理的问题。 b)中:影响到部分用户工作的问题,如发生在部分用户的系统非法人侵和病毒攻击等。 c)低:影响到个别用户工作的问题,如个人计算机硬件事件。
4.5问题调查
问题支持组应查阅与问题相关的各类文档记录,访问配置管理数据库,获取诊断问题所需的证据
调查过程需要收集的证据信息包括: a)所有受到影响或可能会受到影响的基础设施。 b)曾经发生过的类似事件的记录。 c)由其他流程提供与问题相关的文档资料,如热线帮助、事件管理等 d)受影响的用户信息。 e)事件支持组采取恢复服务或解决事件的所有方法与步骤。 f)用户提供的相关背景信息。 g)任何其他可以搜集到的问题相关数据。
4.6问题分析
在结束调查工作后,问题支持组应对所涉及的问题进行深入地分析,力求在短时间内找出问题发生的根本原因,提供应急解决方案以恢复服务。问题支持组在查找产生问题的根本原因时应遵循以下步骤:
a)定义问题,明确指出信息系统服务受到的影响。 b)对问题进行详细描述 c)依据问题描述中的比较和实施的变更发现问题可能产生的原因, d)评价每个可能原因以确认形成问题症状的原因。 问题支持组在调查分析中应全面地将相关信息存入配置管理数据库中。
4.7方案设计 4.7.1应急方案
应急方案是克服由问题产生影响的临时性方法。应急方案和事件管理流程中的解决方案都会记录至配置管理数据库中,事件管理负责人可以依据其制定相应的常规事件处理记录。
在问题需要进一步分析以确定解决方案的过程中,可以采用应急方案确保信息系统在短时间内稳定运行。 4.7.2解决方案
问题支持组应制定解决方案:对解决问题的可能方法进行评估,确定解决方案,同时在配置管理数据库中记录。对于涉及对基础架构修改的措施,应启动变更管理流程。 4.8方案评估
在确认解决方案后,问题管理负责人协调相关专家综合分析方案可行性、执行成本以及对系统服务的影响,确定是否实施解决方案。
例如出现以下情况,应考虑放弃解决方案。 a)处理成本远超出收益。 b)解决方案不符合实际。 c)错误的影响度小,解决方案涉及的资源用在其他方面更有效。 d)缺乏解决方案的技术能力。 e)解决方案带有潜在的业务风险。 f)应急方案非常有效。 g)计划中的技术更新将会解决问题。 h)新的业务发展方向对基础设施要求发生变化。 i)信息系统或服务已临近使用寿命。 在这些情况下,应急方案可以被确定为永久性解决方案。 实施应急方案后,需要注意监控潜在的风险,如果不能执行完善的解决方案,则需要对可能存在
的风险制定相应的事件处理记录,保证事件再次发生能够得到及时的处理,确保系统的正常运行。 4.9方案实施
如果实施解决方案,在方案经过评估,对可能发生的风险进行分析后,由问题管理负责人协调执行解决方案。
上一章:Q/SY 1331.7-2010 信息系统运维管理规范 第7部分:配置管理 下一章:Q/SY 1331.4-2010 信息系统运维管理规范 第4部分:事件管理

相关文章

Q/SY 10331.5-2019 信息系统运维管理规范 第5部分:问题管理 Q/SY 1331.5-2014 信息系统运维管理规范 第5部分:问题管理 Q/SY 10331.7-2019 信息系统运维管理规范 第7部分:配置管理 Q/SY 10331.6-2019 信息系统运维管理规范 第6部分:变更管理 Q/SY 10331.3-2019 信息系统运维管理规范 第3部分:监控管理 Q/SY 1331.7-2014 信息系统运维管理规范 第7部分:配置管理 Q/SY 1331.6-2014 信息系统运维管理规范 第6部分:变更管理 Q/SY 1331.3-2014 信息系统运维管理规范 第3部分:监控管理