
ICS 75-010 E 07 备案号:48256—2015
SY
中华人民共和国石油天然气行业标准
SY/T7005—2014
数据质量控制与评估原则
Directives for data quality control and assessment
2014一10一15发布
2015一03一01实施
国家能源局 发布
SY/T 70052014
目 次
前言引言 1
H
II
范围规范性引用文件术语和定义 4数据质量控制方法 5数据质量评估规则 6数据质量评估流程
2
2
数据质量评估指标附录A(资料性附录) 数据质量实例
16
SY/T7005—2014
前言
本标准按照GB/T1.1—2009《标准化工作导则 第1部分:标准的结构和编写》给出的规则起草。
本标准由石油信息与计算机应用专业标准化委员会归口。 本标准起草单位:中国石油勘探开发研究院、东北石油大学、大庆油田有限责任公司。 本标准主要起草人:袁满、高雪、黄刚、陈萍、刘学霞、袁靖舒、
Ⅱ
SY/T70052014
引 言
本标准分析了石油行业关系数据库中存在的数据质量问题,规定了数据质量从两个角度实现质量的控制与评估的原则。一方面是从管理角度进行数据质量的控制,另一方面是从技术角度进行数据质量的控制,两者缺一不可。本标准定义了准确性、一致性等七类数据质量元素和非空约束、值域约束等十五个维度的规则,其中数据质量元素用于描述数据质量,数据质量约束规则反映了具体业务规则和领域知识:规定了七项评估指标和每个评估指标的计算方法;规定了数据质量分析与评估的体系结构模型以及评估流程。本标准能够对关系数据库或数据集的数据质量进行控制与评估。
SY/T70052014
数据质量控制与评估原则
1范围
本标准规定了对石油行业信息系统关系数据库数据质量控制方法、数据质量评估原则、数据质量
元素分类、数据质量约束规则、评估流程、评估指标以及评估算法。
本标准适用于石油行业各种关系数据库的数据质量控制与评估
2规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T15237.1一2000术语工作词汇第1部分:理论与应用 SY/T6227一2005石油工业数据库设计规范 SY/T6705一2007石油工业数据元设计原则
3术语和定义
下列术语和定义适用于本文件。
3.1
模式 schema 数据库中数据的逻辑结构和特征的描述,用来反映数据的结构及其联系。它既不涉及数据的存储
和硬件环境,也不与具体的应用有关。一个数据库只有一个模式,模式也称为逻辑模式。
[SY/T6227—2005,定义2.39]
3. 2
实体entity 任何具体的或抽象的事物,包括事物间的联系
3.3
关系relation 关系模型中的一张二维表。 [SY/T6227—2005,定义2.24]
3.4
元组 tuple 关系模型二维表中的一行即为一个元组。 [SY/T6227—2005定义2.25]
3. 5
数据元素 data element 用一组属性描述定义、标识、表示和允许值的一个数据单元。 [SY/T6705—2007,定义3.1
1
SY/T 70052014
3. 6
数据 data 信息的物理存储形式,是计算机能处理的各种事实、数字。字符等各种符号的集合。 [SY/T6227—2005,定义2.2]
3. 7
属性 attribute 实体或联系的性质的抽象表示。 [SY/T6227—2005,定义2.16]
3.8
域 domain 属性的取值范围称为该属性的域。 [SY/T6227—2005,定义2.17]
3. 9
属性值 attribute walue 属性按着属性域约束取的值。
3.10
对象 object 可以想象或感觉的世界的任一部分。 [GB/T15237.1—2000]
3.11
元数据 metadata 定义和描述其他数据或过程的数据。
3.12
元模型 metamedel 关于模型的模型。这是特定领域的模型,定义概念并提供用于创建该领域中的模型的构建元素
3.13
深度性 depth 用于测量实体或事件的历史量。深度性可用实际深度、期望深度和深度性满足程度等指标来
体现。 3.14
实际深度 actual depth 在查询到的元组中随机取值的实际深度
3.15
期望深度 desired depth 描述随机元组取值的平均深度。
3.16
评估指标 assessment standard 在评估过程中所遵循的评估规则。
4数据质量控制方法
本标准规定了两种数据质量控制方法,一种是从技术角度对数据质量的控制,另一种是从管理角度对数据持量的控制。两种控制方法两者缺一不可。
SY/T 7005—2014
4.1控制数据质量的技术规范 4.1.1数据采集规范
在数据采集规范中对所采集的数据集名称、采集的数据、采集的时间、采集的周期、采集的责任人等各个方面进行规范定义,以便保障所采集数据的规范性。 4.1.2数据审核规范
审核的对象是采集人员提交的采集内容,主要对采集的内容、采集岗位人员进行一个量化审核,审核的周期是随着采集周期而制定的,在采集之后的一段时间之内要对所采集数据进行审核,审核通过之后,才充许数据真正进人到数据存储中去。如果审核不通过,则将数据反馈给采集用户,重新进行数据的采集或校正,之后再进行重新审核,直到通过审核才能最后归档到永久存储中去。 4.1.3考核规范
在数据采集和数据审核阶段,实时控制员工的工作情况以及当前数据的质量。确认每一个采集的数据集提交时间和审核时间。采集人员和审核人员要保证在规定时间内完成相应的数据采集工作和数据集的审核工作,如果超出规定的时间或完成的准确率低下,那么要通过对员工量化考核评分机制来对员工进行管理。 4.1.4成立数据质量管理队伍 4.1.4.1制定指标
通过分析具体的业务数据,制定相应的数据质量约束和质量评估指标。 4.1.4.2质量的监督和控制
在数据质量控制过程中,主要通过分析具体的业务流程:利用系统自动的对数据采集,数据审核
等过程进行有效的监督和控制,来实现数据质量的控制。 4.1.4.3制定量化结果
在数据的整个生命周期中,对数据质量进行控制,制定量化评定结果。 4.1.5定期总结
定期开展数据质量管理小组例会,总结每一阶段对数据质量控制的工作情况。
4.2控制数据质量的技术规范
从技术角度实现对数据质量的控制,定义数据质量元素以及评估指标,包括7个数据质量元素与 7个评估指标:准确性、及时性、完整性、一致性、关联性、深度性和元余性。
5数据质量评估规则
5.1数据质量评估模型
数据质量控制与评估模型是一个四元组:
3
SY/T7005—2014
M=
D:需要进行评估的数据集。对于关系数据库来讲,一个数据集是由若干条记录组成的,是从关
系视图、关系表查询的结果。
I:数据集D上需要评估的数据质量元素。 R:描述数据质量元素的约束规则,其主要目的是实现对数据质量的约束,即控制,在下文中数
据质量的约束规则与数据质量控制等同使用。
S:分析评估后的结果。 由于对数据集的数据质量衡量标准不同,通常情况下,一个数据集的数据质量是由一个或者多个
数据质量元素来描述,同时,一个数据质量元素需要由一个或者多个数据质量约束规则来描述,如图 1所示。
数据集
(数据质量元素1
数据质量元素n
约束规则 约束规则1 约束规则n
约束规则1 图1数据集、质量元素及约束规则三者关系
5.2数据质量元素分类与定义
数据质量由数据质量元素来描述,数据质量元素又称数据质量评估指标。本标准定义了7个关键
性的数据质量元素,其中包括数据的完整性、深度性、一致性、准确性、及时性、关联性和元余性。
7类数据质量元素通过多个维度的约束规则对其进行描述。 一个数据质量元素可以被多个约束规
则描述,一个约束规则也可以描述多个数据质量元素,它们两者的关系见图2。
深度性
准确性
及时性
完整性
元余性
一致性
关联性
完整 连续 非空 值域 逻轩 等值 到肉
深 性约 性药
烫漆
等值 逻辑 存在 关联致 致 致
及时
代码
约束 约束 约策 依赖
性约
函数
束规 束规 束规 规则规则 规则 约束 规则 依赖 東规 性约 性约 性约 束规 性约
束规则
洲 东娜
M
规则 约束 则
则
東规
则
规则
图2数据质量元素和约束规则的关系
5.2.1完整性
完整性用来描述数据信息的完整程度完整性数据质量要素由完整性约束规则、非空约束规则和连续性约束规则三个维度的规则来
描述。
4