
ICS 01.040.25;25.040.40 CCS A 22;N10
GP
中华人民共和国国家标准
GB/T 42381.8—2023/ISO 8000-8:2015
数据质量 第8部分:信息和数据质量:概念和测量
Data quality-Part 8 :Information and data quality:Concepts and measuring
(IS08000-8:2015,IDT)
2023-10-01实施
2023-03-17发布
国家市场监督管理总局
国家标准化管理委员会 发布
GB/T42381.8—2023/ISO8000-8:2015
目 次
前言引言 1 范围 2
规范性引用文件 3 术语和定义 4 基础概念 5 信息和数据质量 5.1 语法质量 5.2 语义质量 5.3 语用质量 6 一致性附录A(规范性) 文件标识附录B(资料性) 语法质量规则附录C(资料性) 语用质量附录D(资料性) 用于测量信息和数据质量的活动模型参考文献
1:
GB/T42381.8—2023/ISO8000-8:2015
前言
本文件按照GB/T1.1一2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件是GB/T42381《数据质量》的第8部分。GB/T42381《数据质量》已经发布了以下部分
第8部分:信息和数据质量:概念和测量;第61部分:数据质量管理:过程参考模型。
本文件等同采用ISO8000-8:2015《数据质量第8部分:信息数据质量:概念和测量》。 本文件做了下列最小限度的编辑性改动:
在第4章中增加了对附录A的规范性引用。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由中国机械工业联合会提出。 本文件由全国自动化系统与集成标准化技术委员会(SAC/TC159)归口。 本文件起草单位:中国标准化研究院、十堰市工业产品质量检验检测所、南京市特种设备安全监督
检验研究院、安徽华普生产力促进中心有限公司、福建中信网安信息科技有限公司、福建亿榕信息技术有限公司、中国科学院计算机网络信息中心、中国人民大学、中国科学院计算技术研究所、广东华昌集团有限公司、浙江大学、北京金谷远见科技有限公司、深圳鹏锐信息技术股份有限公司。
本文件主要起草人:王志强、高峻峰、冯月贵、陶影海、金华松、庄莉、朱艳华、安小米、洪学海、郭加林、 王会方、顾复、张伟群、杨青海、减传胪、王彦军、洪岩、岳高峰、刘守华、徐凯程、尹书蕊。
1
GB/T42381.8—2023/ISO8000-8:2015
引言
创建、收集、存储、维护、传输、处理、呈现信息和数据以便及时、经济地支持业务过程,既需要了解决定信息和数据质量的相关特征,也需要测量、管理、报告信息和数据质量。
GB/T42381定义了决定信息和数据质量的相关特征,并提供了管理、测量、提高信息和数据质量的方法。这些给定方法可用于评估信息和数据的质量。面向当前业务案例的期望和需求,对给定方法进行剪裁也很重要。
GB/T42381包括适用于所有数据类型的部分,以及适用于特定数据类型的部分。GB/T42381可独立使用,也可与质量管理体系结合使用。
GB/T42381《数据质量》由以下系列组成。
第1到99部分:数据质量综述。该系列给出了数据质量系列标准的结构、数据质量标准涉及的基本概念、数据质量管理、数据质量评估等综合内容,ISO8000-1给出了数据质量部分的综述。 一第100到199部分:主数据质量。主数据描述了个人、组织、地点、物品、服务、过程、规则和标准。该系列标准描述定义主数据质量的特性。这些特性包括:语义、语法编码、需求的一致性、 数据源、准确性、完整性和数据治理。该系列规定了一些主数据信息,这些信息应在总体上确保信息发送方和接收方数据通信的可靠性。ISO8000-100给出了主数据质量部分的综述,第200到299部分:事务数据质量。事务数据描述了时间事件,包括个人、组织、地点、物品、 服务、过程、规则和标准。该系列标准描述定义事务数据质量的特性。这些特性包括:语义、语法编码、需求的一致性、数据源头、准确性、完整性和数据治理。该系列规定了一些业务事务数据信息,这些信息应在总体上确保信息发送方和接收方数据通信的可靠性。ISO8000-200给出了事务数据质量部分的综述
一
一第300到399部分:产品数据质量:产品数据质量是产品数据正确性和适用性的度量,产品数
据可保证数据能及时地提供给需要这些数据的用户,产品数据是产品从概念到制造需要的数据。因此,产品不仅仅包括计算机辅助设计(CAD)数据,还包括计算机辅助制造(CAM)数据、 计算数据工程(CAE)数据、产品数据管理(PDM)数据以及其他类型的数据。该系列的主要意图是提高协调产品开发的效率,减少数据接收端的重复工作。ISO8000-300给出了产品数据质量部分的综述。
GB/T42381《数据质量》拟由以下部分构成:
第1部分:综述;第2部分:术语;第8部分:信息和数据质量:概念和测量;第51部分:数据治理:数据交换的策略声明;第61部分:数据质量管理:过程参考模型;第62部分:数据质量管理:组织过程成熟度评估:过程评估相关标准的应用:
一第63部分:数据质量管理:过程测量;
第65部分:数据质量管理:过程测量量表;
-
—一第66部分:数据质量管理:生产运作管理数据处理的评估指标;
第81部分:数据质量评估:数据收集;一第82部分:数据质量评估:创建数据规则;
II
GB/T42381.8—2023/ISO8000-8:2015
一第100部分:主数据:特征数据交换:概述;
第110部分:主数据:特征数据交换:语法、语义编码和对数据规范的符合性;第115部分:主数据:质量标识符交换:语法、语义和解析要求:第116部分:主数据:质量标识符交换:IS08000-115授权实体标识符的应用;第120部分:主数据:特征数据交换:溯源性;第130部分:主数据:特征数据交换:准确性; -第140部分:主数据:特征数据交换:完整性第150部分:主数据:质量管理框架;第210部分:传感器数据:数据质量特性;第311部分:形状产品数据质量(PDQ-S)应用指南。
-
一
本文件是GB/T42381《数据质量》的第8部分,可单独使用,也可与其他部分结合使用。 本文件供信息或数据质量利益相关方使用,重点在于关注一个或多个信息系统,包括组织间和组织
内部的视图,以及贯穿于所有生命周期阶段的信息系统。当评估信息和数据的质量是否达标时,有必要为每个要测量的对象建立与业务相关的阈值,本文件没有设置这些阅值。明确测量值所采用的尺度也非常重要,本文件没有定义测量信息和数据质量的尺度,但要求对这些尺度做出说明。当传达信息和数据质量量化的结果时,接收者能够理解结果的置信度是十分有用的,尤其重要的是,要知道是否有任何规则未被应用,或者是否有任何信息或数据未经检查。
II
GB/T42381.8—2023/IS08000-8:2015
数据质量第8部分:信息和数据质量:概念和测量
1范围
本文件描述了信息和数据质量的基础概念,以及这些概念应用于质量管理过程和质量管理体系的方式。
本文件还规定了在质量管理过程和质量管理体系中进行信息和数据质量测量的先决条件。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
ISO8000-2 数据质量第2部分:术语(Dataquality一Part2:Vocabulary)
3术语和定义
ISO8000-2界定的以及下列术语和定义适用于本文件。
3.1
数据data 信息的可解释形式化表示,以适用于通信、解释或处理。 [[来源:ISO/IEC2382:2015,2.12,有修改删除注释。]
3.2
实体entity 关注域内的具体或抽象的事物。 [来源:GB/T16642一2008,3.29,有修改一删除的任何”一词。]
3.3
信息information 关于客体(如事实、事件、事物、过程或思想,包括概念)的知识,在一定的场合中具有特定的意义。 [来源:ISO/IEC2382:2015,2121271,有修改一删除应用领域和注释。]
3.4
元数据 居metadata 定义和描述其他数据的数据。 [来源:GB/T18391.1—2009,3.41]
3.5
要求requirement 明示的,通常隐含的或必须履行的需求或期望。 [来源:GB/T19000—2016,3.6.4,有修改—删除注释。」
1
GB/T42381.8—2023/ISO8000-8:2015
3.6
验证verification 通过提供客观证据对规定要求已得到满足的认定。 [来源:GB/T19000—2016,3.8.12,有修改—删除注释。]
3.7
确认validation 通过提供客观证据对特定的预期用途或应用要求已得到满足的认定。 [来源:GB/T19000—2016,3.8.13,有修改—删除注释。]
4基础概念
信息系统是域状态信息收集、存储、处理和分发的系统。信息在系统中以数据的形式表示和形式化,并通过用户界面加以呈现。
注1:关于域状态的解释,见参考文献[13]。 本文件旨在为测量信息和数据质量提供基础。信息和数据质量根据以下类别进行定义和测量:
语法质量,即数据符合其特定语法的程度,即元数据规定的要求;语义质量,即数据与它所表示的内容相对应的程度;语用质量,即数据在何种程度上适合某一特定目的,并具有特定用途。
语法质量和语义质量的测量是通过验证过程进行的,而语用质量的测量是通过确认过程进行的。 当测量物理对象时,可以用长、宽和高的三个维度进行测量。如果对象是圆柱体,半径则是其候选
特征。建立一套与当前案例相关的有用特征对于满足测量的交互至关重要。本文件为量化信息和数据的质量提供了一组维度。
附录A规定了本文件在信息系统中的标识。 附录D提供了支持信息和数据质量测量的活动模型。 有关ISO8000的总体描述和体系结构,参阅ISO/TS8000-1。 注2:计划中的ISO/TS8000-31"旨在进一步解释ISO8000的体系结构。
5信息和数据质量
5.1语法质量
语法质量是指数据符合其特定语法的程度,即元数据规定的要求。 示例1:一组特定的数据符合其实现模式。 示例2:一个特定的句子符合语言的语法规则,并使用语言词典中的单词。 为了进行符合本文件的语法验证,即可以测量语法质量,应具备以下条件。
一一套完整的语法质量规则(见附录B)。 信息表达方式的形式规范。
-
—对于每个语法规则而言:
·测量符合性程度的定义; ·若数据不符合规则,则会在数据集中呈现问题的说明; ·对不符合规则的含义进行描述。 示例3:当违反实体完整性规则时,可能会发生重复
1)准备中。 2
GB/T42381.8—2023/ISO8000-8:2015
如果有任何规则未经检查,则应列出这些规则。 一定义如何记录和呈现偏差。 一对每条规则执行的检查次数。 —符合每条规则的出现次数。
5.2 语义质量
语义质量是可识别的数据单元与所表示的实体之间唯一且无二义性的对应关系。因此,需要满足的是数据与实体的对应关系,因为这些实体是通过概念模型来表示的。语义质量是数据与其所表示的内容相对应的程度。
注1:关于概念模型和概念建模的解释,见参考文献[13]。 示例1:一个特定的句子须是一个真实的陈述。 数据和它所表示的内容之间的对应关系是通过验证这些标准是否得到满足来建立的。
映射完备性:关注域的每个实体都应加以表示。 示例2:违反准则:在员工登记册中,有一名员工未进行登记。
一映射一致性:关注域的每个实体都应按照下列方式之一加以表示:
·最多一个可识别的数据单元; ·多个但一致的可识别单元; ·多个可识别的单元,其不一致性在可接受的时间范围内得到解决。 示例3:违反准则:在员工登记册中,有一名员工拥有两个员工编号。 映射有意义性:每个可识别数据单元应表示关注域中的至少一个特定实体。 示例4:违反准则:在员工登记册中,存在一个不属于任何一名员工的员工编号。 映射无二义性:每个可识别的数据单元最多只能表示关注域中的一个特定实体。 示例5:违反准则:在员工登记册中,有两名员工获得了相同的员工编号。 实体映射准确性:每个可识别数据单元应和关注域中的实体映射正确。 示例6:违反准则:在员工登记册中,有两名员工的员工编号错用。 属性映射准确性:可识别数据单元中的所有属性值应与关注域中所表示实体的属性值相匹配。 示例7:违反准则:在员工登记册中,有一名员工注册的地址不正确
为了进行符合本文件的语义验证,即可以测量语义质量,应具备以下条件。
种记录的包括关系在内的论域的概念模型,以一种形式表示数据,使数据能够通过概念模型被人们看到,从而映射到它们所表示的内容。 根据概念模型验证数据的方法规定。 对将标准中得出的规则作为测量方式的一种描述
一对于每条语义规则。
· 定义如何测量符合性; ·对不符合规则的后果的描述,示例8;当违反映射完备性规则时,数据集可能缺少注册,如果概念模型中有未经检查的外部实体或者类型的,应当予以列出。 对偏差登记和呈现方式的定义。
每条规则执行的检查次数。
符合每条规则的出现次数。 注2:在许多情况下,完整地检查数据单元与它们所表示的外部实体之间的对应关系几乎是一项不可能完成的任
务。可以应用抽样技术和统计方法从概率角度刻画语义质量。
注3:建议考使用现有的“可信代理”,而非检查与关注域中的实体的对应关系。例如,已被验证的关注域中的实
3