
ICS 25.040.40 L 67
GB
中华人民共和国国家标准
GB/T39400—2020
工业数据质量 通用技术规范
Industrial data qualityGeneral technical specification
2020-11-19发布
2021-06-01实施
国家市场监督管理总局
国家标准化管理委员会 发布
GB/T39400—2020
目 次
前言引言 1 范围
III V
规范性引用文件 3 术语和定义
2
工业数据质量持续改进 4.1 质量特性 4.2 持续改进模型 5工业数据质量描述 5.1 描述要素 5.2 定量元素 5.3 非定量元素工业数据质量识别
1
6
6.1 定量的数据质量信息 6.2 非定量的数据质量信息工业数据质量评价 7.1 评价方法 7.2 评价流程和步骤工业数据质量控制
7
8
.
8.1 控制规则 8.2 控制方法
9 报告数据质量信息
10
..
9.1 概述 9.2 数据质量报告参考文献
10 10
12
GB/T 39400—2020
前言
本标准按照GB/T1.1一2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由中国机械工业联合会提出。 本标准由全国自动化系统与集成标准化技术委员会(SAC/TC159)归口。 本标准起草单位:中国标准化研究院、浙江大学、中机生产力促进中心、深圳鹏锐信息技术股份有限
公司、深圳市华傲数据技术有限公司、北京三维天地科技股份有限公司,
本标准主要起草人:杨青海、王志强、顾复、洪岩、潘康华、刘守华、顾新建、岳高峰、肖承翔、张伟群、 贾西贝、曹朝晖、徐凯程、尹书蕊
II
GB/T 39400—2020
引言
随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,工业企业建立了很多计算机信息系统,积累了大量工业数据,工业数据已成为工业企业的重要资源。同时,数据质量贯穿于工业数据生命周期的产生、收集、存储、维护、传输、加工和利用等各个阶段,海量的工业数据存在数据残缺、数据不规范以及数据错误等数据质量问题
本标准通过对工业数据质量持续改进的模型、质量的描述、识别、评价、控制和报告等的标准化,支撑工业数据的协同建设、互联互通、共享利用,提高工业数据的质量、可用性和利用效率。
本标准的实施有助于实现工业数据的规范化管理和质量保证。
N
GB/T39400—2020
工业数据质量 通用技术规范
1范围
本标准规定了工业数据质量持续改进的模型,以及工业数据质量的描述、识别、评价、控制和报告的
要求。
本标准适用于工业数据采集、传输、维护和使用过程中的质量管理。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注目期的引用文件,仅注目期的版本适用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T19001—2016 质量管理体系要求
3 术语和定义
下列术语和定义适用于本文件。
3.1
数据质量 dataquality 数据的一组固有特性满足要求的程度注:固有特性一般指永久性的特性
3.2
数据质量管理 data quality management 指导和控制某机构数据质量的协调活动。
3.3
质量评价过程 quality evaluation procedure 用于应用和报告质量评价方法及结果的操作。
3.4
质量测量 qualitymeasurement 对质量定量元素、子元素的评估。
3.5
质量结果 qualityresult 数据质量测量得到的一个值或一组值,或将这些值同规定的一致性质量等级相比得到的评价结果
3.6
质量范围 qualityscope 报告质量信息的数据的覆盖范围或特征。
3.7
数据集 dataset 可以标识的数据集合。 [GB/T33674—2017,定义3.1]
1
GB/T394002020
3.8
完全检查 complete inspection 质量范围内所有个体都进行的检查
3.9
抽样检查 sampling inspection 从质量范围内的整体中抽取若干个体进行的检查。
3.10
主数据 master data 组织未来执行事务需要使用的,用于描述实体的独立的、基本的数据注1:主数据通常包括描述客户、产品、雇员、材料、供应商、服务、股东、设施、设备以及规章制度的记录。 注2:主数据的选择和确定,取决于组织的视角注3:此处“实体”为一般含义,而非数据建模中使用的含义。
3.11
事务数据 transactiondata 表征业务活动或活动方案实现的数据。
3.12
产品数据 product data 适合于人或计算机进行通信、解释或处理的,以形式化方法表达的有关产品的信息。
4工业数据质量持续改进
4.1 质量特性
工业数据主要包括主数据、事务数据和产品数据。 工业数据质量特性包括完整性、一致性、准确性以及其他附加特性。
4.2 2持续改进模型
工业数据质量管理应用戴明环(PDCA循环)持续改进方法,PDCA循环符合GB/T19001一2016
的规定,工业数据质量持续改进模型见图1,包括策划、实施、检查和处置4个阶段,其中:
策划(Plan):明确质量目标和用户需求,规划数据质量描述要素,开展数据质量描述:实施(Do):识别数据质量要素,新建数据质量要素,开展数据质量识别;
一检查(Check):选择评价方法,确定评价流程和步骤,开展数据质量评价;
处置(Act):确定控制规则,选择控制方法,开展数据质量控制。
-
2
GB/T39400—2020
策划
实施
数据质量描述明确质量目标和用户需求规划数据质量描述要素
数据质量识别识别数据质量要素新建数据质量要素
数据质量控制确定控制规则选择控制方法
数据质量评价选择评价方法确定评价流程和步骤
处置
检查
图1工业数据质量持续改进模型
5工业数据质量描述
5.1 描述要素
源自数据集、用户需求的工业数据质量信息所反映的数据质量应满足用户的特定需求。质量目标表明数据质量应符合任务的特定目的。通过识别数据集、用户需求、质量目标中的质量元素来描述质量信息。质量描述可用于数据集系列、数据集或数据集内具有相同特征的部分数据。
一个数据集的质量用以下两个要素来描述:
数据质量定量元素;数据质量非定量元素,
每个数据质量定量元素可细分为多个数据质量定量子元素。每个数据质量定量子元素用多个数据质量定量子元素描述项描述。通过数据质量定量元素、数据质量定量子元素及数据质量定量子元素描述项,描述数据集满足数据规范中预先设定标准的程度,并提供定量的质量信息。
数据质量非定量元素提供非定量的质量信息,可用于评价数据集在非预期的特定应用中的质量。 质量信息的可信性,记录在“数据质量报告”中。 数据质量描述框架见图2。
3
GB/T39400—2020
描述质量信息
报告质量信息
定量质量信息可用数据质量定量元素可用数据质量定量子元素
数据质量定量子元素描述项
数据质量范围数据质量测量数据质量评价过程数据质量结果数据质量值类型数据质量值单位数据质量测量日期
工业数据
质量信息的可信度
质量评价报告
非定量质量信息可用数据质量非定量元素
图2数据质量描述框架
5.2定量元素 5.2.1构成
数据质量定量元素用来描述数据集的定量质量信息,用来表达符合数据规范的程度。包括但不限于以下元素:
完整性:特征、特征属性及特征关系存在或不存在: -致性:数据结构(包括概念结构、逻辑结构、物理结构)、属性及其关系符合逻辑规则的程度;准确性:包括正确性、精确性和时序性;附加数据质量定量元素:用户可根据需求设置,以便描述无法用以上定量元素描述的定量的数据质量信息。
5.2.2子元素
数据质量定量子元素与数据质量定量元素相对应,用来描述数据集的定量质量信息。包括但不限于以下子元素:
a)完整性的子元素:
多余:数据集中有多余数据;缺少:数据集中缺少应有数据;交叉:数据集中存在交叉重复数据。
-
b)一致性的子元素:
概念一致性:符合概念模式规则;值域一致性:值在值域范围内;格式一致性:数据存储与数据集物理结构的一致性。
准确性的子元素:
c)
正确性:数据反映和描述客观事物及其变化的准确程度:
M