您当前的位置:首页>行业标准>DB3307/T 137-2024 公共数据质量评价规范

DB3307/T 137-2024 公共数据质量评价规范

资料类别:行业标准

文档格式:PDF电子版

文件大小:409.81 KB

资料语言:中文

更新时间:2025-05-10 14:37:44



相关搜索: 数据 规范 质量 评价 公共 公共

内容简介

DB3307/T 137-2024 公共数据质量评价规范 ICS 35.240.01 3307
CCS L 70

江 省 金 华 市 地 方 标 准
DB 3307/T 137—2024
公共数据质量评价规范
Quality assessment specifications for public data
2024 - 1 - 23 发布
2024 - 2 - 23 实施
金华市市场监督管理局 发 布
DB 3307/T 137—2024


前言 .................................................................................. II
1 范围 ................................................................................ 1
2 规范性引用文件 ...................................................................... 1
3 术语和定义 .......................................................................... 1
4 指标体系框架 ........................................................................ 1
5 评价指标 ............................................................................ 2
5.1 评价指标设置原则 ................................................................ 2
5.2 指标说明 ........................................................................ 2
5.3 评价方法 ........................................................................ 6
6 评价程序 ............................................................................ 7
6.1 评价流程 ........................................................................ 8
6.2 评价流程图 ...................................................................... 8
附录 A(资料性) 公共数据质量评价报告 ..................................................9
I
DB 3307/T 137—2024


本文件按照GB/T 1.1—2020《标准化工作导则
起草。
第1部分:标准化文件的结构和起草规则》的规定
请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别专利的责任。
本文件由金华市大数据发展管理局提出、归口并组织实施。
本文件起草单位:金华市大数据发展管理局、数字浙江技术运营有限公司、金华市计量质量科学研
究院。
本文件主要起草人:徐李锐、庄迁伟、徐挺、薛海霞、刘家豪、施林波、赵勇、马慕遥、盛尚军、
叶慧杰、冯骏、王秋娴。
II
DB 3307/T 137—2024
公共数据质量评价规范
1
范围
本文件规定了公共数据质量评价的评价指标体系框架、评价指标、评价程序的要求。
本文件适用于公共数据平台上公共数据的质量评价。
2
规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
3 DB33/T 2350—2022 数字化改革术语定义
术语和定义
DB33/T 2350—2022界定的以及下列术语和定义适用于本文件。
3.1
公共数据
public date
国家机关、法律法规规章授权的具有管理公共事务职能的组织以及供水、供电、供气、公共交通等
公共服务运营单位,在依法履行职责或者提供公共服务过程中收集、产生的数据。
3.2
数据质量
public date quality
在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。
[来源:GB/T 36344—2018,2.3]
4
指标体系框架
公共数据质量评价指标体系框架,见图1。
1
DB 3307/T 137—2024
图 1
公共数据质量评价指标体系框架
5 评价指标
5.1 评价指标设置原则
数据质量评价指标设置应遵循以下原则:
——系统性:指标体系覆盖全面,综合考虑各要素对数据质量的影响,且各指标项之间尽可能相
互独立;
——科学性:需结合数据质量、数据生命周期管理的相关要求及实践情况,采用定性、定量的方
法,科学设计评价指标体系;
——通用性:根据不同参与主体、应用场景合理选择评价指标,并设置分值和权重;
——可操作性:指标体系内容设置及评价方法符合公共数据共享的实际情况,选取数据可得、概
念明确及计算方法简单的指标,此外评价内容和指标可量化,评价步骤和方法可操作,评价
结果可使用。
5.2
指标说明
5.2.1
基础质量
基础质量评价指标说明,见表1。
2
DB 3307/T 137—2024
表 1
基础质量评价指标说明
序号 一级 指标 二级 指标 三级指 标 指标描述 指标类型 (正向/反向) 计算方法 示例
1 基础 质量 完整性 时间覆 盖比例 数据记录实际归属时间与目 录所填报的数据时间覆盖范 围的比值。 注:时间覆盖范围:目录编 制时依据业务发生情况 (按年、月、周、日、 实时)进行时间覆盖范 围填报,包括数据起始 时间、数据截止时间, 可剔除因未实际开展相 关业务造成无数据记录 的时间段。 正向 X=(1-b/(A-B))× 100% 式中: A=填报的数据截止时 间; B=填报的数据起始时 间; b=数据缺失时间。 填报的数据时间覆盖 范围为“2023 年 1 月 -2023 年 12 月”,而 实际数据记录中缺失 2023 年 2 月的数据, 则比值为(1-1/12) ×100%,即 91.67%
2 区域覆 盖比例 数据记录实际归属区域与目 录所填报的数据区域覆盖范 围的比值。 注:区域覆盖范围:目录编 制时按照实际业务数据 的地域来划分,进行区 域覆盖范围填报。剔除 因未开展相关业务造成 无数据记录的区域。 正向 X=A/B×100% 式中: A=实际业务覆盖且在 填报地区内的区域数 量; B=填报上传区域覆盖 范 围 内 的 区 域 总 数 量。 填报的地区覆盖范围 为“全市10区县”, 而数据记录中只包含 8个区县的数据,则比 值为(8/10)×100%, 即80%。
3 业务覆 盖比例 数据记录实际归属业务与目 录所填报的数据业务覆盖范 围的比值。 注:业务覆盖范围:目录编 制时按照业务发生情况 填报的业务覆盖范围。 正向 X=A/B×100% 式中: A= 实 际 覆 盖 业 务 数 量; B=填报上传全部业务 总数量。 填报的业务覆盖范围 为“业务A、业务B、 业务C”,而数据记录 中只包含A业务的数 据,则比值为(1/3) ×100%,即33.33%。
4 准确性 不准确 记录比 例 数据记录中不符合准确性清 洗规则的数据记录条数占数 据总条数的比值。 反向 X=A/B×100% 式中: A=不准确记录条数; B=数据记录总条数。 表中原有10 000条数 据,根据清洗规则清 洗后发现不准确数据 200条,则比值为 (200/10 000)× 100%,即2%。
5 格式异 常记录 比例 数据记录中不符合数据字典 规范的异常记录数占数据记 录总条数的比值。 反向 X=A/B×100% 式中: A=格式异常数据记录 条数; B=数据记录总条数。 数 据记 录 总数 为10 000条,存在格式异常 数据200条,则比值为 ( 200/10 000 ) × 100%,即为2%。
6 基础 准确性 重复数 数据记录中异常重复的数据 反向 X=A/B×100% 数 据记 录 总数 为10
3
DB 3307/T 137—2024
序号 一级 指标 二级 指标 三级指 标 指标描述 指标类型 (正向/反向) 计算方法 示例
质量 据记录 比例 记录条数占数据总条数的比 值。 式中: A=异常重复数据记录 条数; B=数据记录总条数。 000条,存在异常重复 数据200条,则比值为 ( 200/10 000 ) × 100%,即2%。
7 元素唯 一性比 例 符合唯一性的字段元素个数 与有唯一性要求的数据字段 元素总数的比值。 正向 X=A/B×100% 式中: A=符合唯一性的字段 元素个数; B=有唯一性要求的字 段元素总数。 有10个字段元素有唯 一性要求,其中符合 唯一性要求的字段元 素有7个,则比值为 (7/10)×100%,即 70%。
8 反馈问 题数据 比例 数据记录中,通过数据问题工 单等形式反馈问题的数据记 录数与数据记录总条数的比 值。 反向 X=A/B×100% 式中: A= 反 馈 问 题 数 据 条 数; B=数据记录总条数。 数 据记 录 总数 为10 000条,其中通过工单 反馈的问题数据条数 为200条,则比值为 ( 200/10 000 ) × 100%,即2%。
9 及时性 归集及 时性 数据的实际更新频率与目录 编制时填报的更新频率(小 时、每天、每周、每月、每半 年、每年)或业务发生频率的 一致性情况。 正向 X=IF(A=a," 是 "," 否 ") 式中: A= 数 据 实 际 更 新 频 率; a=数据目录要求更新 频率。 数据实际更新频率为 1次/天,数据目录要 求的更新频率为每天 1次,此时数据实际更 新频率与数据目录更 新频率相同则判断返 回是,则归集及时性 为是,即为及时归集。
10 数据时 效性 数据记录中最新的更新时间 与要求的更新时间之间的差 值,以天数计算。 反向 X=A-a 式中: A= 数 据 最 新 更 新 时 间; a= 数 据 要 求 更 新 时 间。 按要求数据记录更新 时间应为5月5日12 点,但数据记录中实 际的最新更新时间为 当月5月5日0点,则该 数 据 时 效 性 为 -0.5 (天)。
11 规范性 数据标 准化比 例 数据记录中符合国家、省级、 行业等数据标准的数据字段 元素占有相关数据标准的数 据字段元素总数的比值。 正向 X=A/B×100% 式中: A=满足标准化要求的 数据元素字段数量; B=数据表中有国家、 省级、行业等数据标 准说明的总元素字段 数量。 数据记录中共有20个 数据字段元素,其中 17个数据字段元素的 数据符合数据标准, 则比值为(17/20)× 100%,即85%。
12 基础 质量 规范性 数据模 型规范 判断数据生成模型是否清晰 规范可理解,如有完整规范的 正向 X=IF(a=“规范”, “是”,“否”) 数据生成模型规范, 且清晰可理解,则评
4
DB 3307/T 137—2024
序号 一级 指标 二级 指标 三级指 标 指标描述 指标类型 (正向/反向) 计算方法 示例
性 数据结构、数据操作和数据完 整性约束条件。 式中: a=数据模型是否符合 清晰可理解规范。 价结果为是。
5.2.2
使用成熟度
使用成熟度指标说明见表2。
表 2
使用成熟度评价指标说明
序号 一级 指标 二级指标 指标描述 指标类型 (正向/反向) 计算方法 示例
1 使用 成熟度 数据易用性 数据编目时是否有完整配套 的数据说明书,有则判定为易 用,无则判断为不易用。 正向 X=IF (A=“有”,“是”, “否”) 式中: A=是否有数据说明书。 数据目录中有数据说 明书,则判断数据为易 用。
2 表结构 稳定性 在评价周期内,根据实际需要 设定数据表结构变更次数上 限,在上限之内则判定表结构 为稳定,超过上限则判定表结 构为不稳定。 正向 X=IF (A≤B,“是”,“否”) 式中: A=评价周期内表结构 实际变更次数; B=评价周期内表结构 可变更次数上限。 评价周期内,变更次数 上限为1,表结构实际 变更2次,评价结果为 否(非真),表示表结 构不稳定。
5.2.3
服务保障
服务保障评价指标说明,见表3。
表 3
服务保障评价指标说明
序号 一级 指标 二级 指标 三级 指标 指标描述 指标类型(正向/ 反向) 计算方法 示例
1 服务 保障 问题数 据整改 情况 问题数 据及时 整改比 例 在评价周期内,按时完成整改 的数据问题工单数与所有反 馈的问题数据工单总数的比 值。 正向 X=A/B×100% 式中: A=按时完成整改问 题数据工单数; B=反馈问题数据工 单总数。 某个评价周期内,反 馈的问题数据工单 总数为50个,已按时 整改49个,则问题数 据整改情况为49/50 ×100%,即98%。
2 数据审 批情况 数据审 批通过 比例 在评价周期内,数据申请通过 数与数据申请总数的比值。 正向 X=A/B×100% 式中: A=数据审批通过数; B=数据申请总数。 某个评价周期内,数 据申请工单总数为 50个,通过49个,则 数 据 审 批 情 况 为 49/50 × 100% , 即
5
DB 3307/T 137—2024
序号 一级 指标 二级 指标 三级 指标 指标描述 指标类型(正向/ 反向) 计算方法 示例
98%。
3 服务 保障 数据审 批及时 性 在评价周期内,数据申请按时 审批的数量与数据申请总数 的比值。 正向 X=A/B×100% 式中: A=数据申请在按时 审批数; B=数据申请总数。 某个评价周期内,数 据申请按时审批数 为4个,数据申请总 数为5个,则比值为 4/5 × 100% , 即 为 80%。
5.2.4
共享成效
共享成效评价指标说明,见表4。
表 4
共享成效评价指标说明
序号 一级指标 二级指标 指标描述 指标类型 (正向/反向) 计算方法 示例
1 共享成效 数据使用 评分 在评价周期内,数据使用方 在使用数据后中对数据评 分的平均值(去掉最大值和 最小值)。 正向 评价数大于等于10:X=A 评价数小于10:X=B 式中: A=数据使用方评分的平均 值 ( 去 掉 最 大 值 和 最 小 值); B=数据使用方评分的中位 数。 某个评价周期内,该数 据存在三个评分,分别 为1、3、4,则满足条 件评价数小于10,选择 数据中位数3作为该指 标结果。
2 数据共享 次数比例 数据以批量方式被申请共 享,数据被共享申请通过次 数占总的批量共享申请通 过数的比值。 正向 X=A/B×100% 式中: A=该数据批量共享申请通 过数; B=数据批量共享申请通过 总数。 某个评价周期内,该数 据的批量共享申请通 过次数为3次,总的批 量共享申请通过数为 10次,则该指标为3/10 ×100%,即30%。
3 接口共享 次数比例 数据以接口形式被申请共 享,数据申请通过次数与所 有接口共享申请通过总数 的比值。 正向 X=A/B×100% 式中: A=该数据接口共享申请通 过次数; B=数据接口共享申请通过 总数。 某个评价周期内,该数 据接口申请通过次数 为3次,接口申请通过 总数为10次,则该指标 为3/10×100%,即30%。
5.3
评价方法
5.3.1
重复值分析法
在非冗余的情况下,将每条数据记录中的部分数据或者所有数据的取值,与所有的数据记录进行逐
一比对,识别重复记录。可用于数据准确性相关指标评价。
6
DB 3307/T 137—2024
5.3.2
缺失值分析法
对每条数据记录的所有数据项进行逐一检查,识别是否存在空值。可用于数据完整性、数据规范性
相关指标评价。
5.3.3
值域分析法
将数据项的取值与字段的取值区间进行比对,识别是否超出取值区间。用于数据完整性、数据规范
性相关指标评价。
5.3.4
逻辑关系分析法
对数据记录中相关数据项取值的内在逻辑关系进行分析,识别违背逻辑关系的数据记录。用于数据
准确性、数据及时性相关指标评价。
5.3.5
经验分析法
对比验证数据取值与日常生产生活中产生的经验取值,证实或证伪数据内容。用于数据准确性、使
用成熟度、共享成效相关指标评价。
注:经验分析法常与逻辑关系分析法、词组比对分析法联合使用。
5.3.6
描述统计法
通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之
间关系进行估计和描述的方法。用于数据完整性相关指标评价。
5.3.7
对比分析法
将两个或两个以上的数据进行比较,分析其中的差异,从而揭示这些事物代表的发展变化情况以及
变化规律。用于数据准确性、数据及时性、评价周期内表结构稳定性、问题数据整改情况等相关指标评
价。
5.3.8
平均分析法
利用平均数指标来反映某一特征数据总体的一般水平。用于数据准确性、数据规范性、数据审批情
况、用户对数据使用的评价等相关指标评价。
5.3.9
交叉分析法
用于分析两个变量之间的相互关系的一种基本数据分析法。用于数据易用性、数据准确性相关指标
评价。
5.3.10
关联性分析法
作为一种数据挖掘技术,根据数据之间的关联性强度对数据质量进行评价,可以确定数据的利用效
率。用于共享成效中应用接口共享使用次数比例、应用接口共享使用次数比例等相关指标评价。
5.3.11
全量检测法
对整个数据集合进行检测,检测结果相对精准。用于整个评价体系各项指标评价。
6
评价程序
7
DB 3307/T 137—2024
6.1
评价流程
6.1.1
申请
公共数据来源机构提出申请公共数据质量评价。
6.1.2
对象确定
根据申请的数据目录确定对应的数据表作为评价对象。
6.1.3
指标选择
根据实际需要从第5章评价指标中选定适当的评价指标。
6.1.4
赋分规则
应对选中的评价指标设置分值和权重。
6.1.5
数据获取
加载公共数据平台数据到数据评价系统。
6.1.6
分值计算
应对评价对象的各项指标依据6.1.4条款的赋分规则计算分值。
6.1.7
评价结果
根据分值计算,汇总形成评价结果。
6.1.8
报告
应根据基础质量、使用成熟度、服务保障、共享成效四个维度的评价结果,自动生成评价报告,报
告模版应统一,示例参见附录A。
6.2
评价流程图
评价流程图见图2。
图 2
公共数据质量评价流程图
8
DB 3307/T 137—2024
附 录 A
(资料性)
公共数据质量评价报告
A.1
报告
报告内容包括不限于以下部分:
——报告总览图;
——评价结果示例;
——报告总结与意见建议。
A.1.1
报告总览
报告总览示例见图A.1。
评价对象: XXXX (数据目录名称)
评价总体得分: 94 分
评价机构: 金华市大数据发展管理局
评价对象归属单位: XXXX (部门名称)
评价结论: 通过 (自定义通过阈值)
评价时间: 2023年11月20日
A.1.2 评价结果示例 图 A.1 报告总览图示例
A.1.2.1 基础质量评价
赋分60分,评价结果示例见表A.1。
9
DB 3307/T 137—2024
表 A.1
基础质量评价结果示例
序号 一级 指标 二级 指标 三级指标 指标评定 结果分值 参考结果 实际结果 存在问题/说明
1 基础 质量 完整性 时间覆盖比例 5 100% 100% 该评价指标赋分5分。 无问题,不存在时间度的记录缺失情况。
2 区域覆盖比例 4 100% 90% 该评价指标赋分5分。 存在问题,缺失兰溪市的数据记录。
3 业务覆盖比例 5 100% 100% 该评价指标赋分5分。 无问题,不存在区域维度的记录缺失情况。
4 准确性 不准确记录比例 4 0% 10% 该评价指标赋分5分。 存在问题,有1000条不准确记录,占比10%。
5 格式异常记录比例 5 0% 0% 该评价指标赋分5分。 无问题,不存在格式异常记录。
6 重复数据记录比例 5 0% 0% 该评价指标赋分5分。 无问题,不存在重复数据。
7 元素唯一性比例 5 100% 100% 该评价指标赋分5分。 无问题,全部符合唯一性要求。
8 反馈问题数据条数比例 3 5% 10% 该评价指标赋分5分。 存在问题,反馈问题条数1000条,占比10%。
9 及时性 归集及时性 5 是 是 该评价指标赋分5分。 无问题,符合及时性要求。
10 数据时效性 5 0.5天 0.1天 该评价指标赋分5分。 无问题,未超过设定时限。
11 规范性 数据标准化比例 5 100% 100% 该评价指标赋分5分。 无问题,全部符合标准化要求。
12 数据模型规范性 5 是 是 该评价指标赋分5分。 无问题,符合规范性要求。
A.1.2.2
使用成熟度评价
赋分10分,评价结果示例见表A.2。
表 A.2
使用成熟度评价结果明细示例
序号 一级 指标 二级指标 指标评定 结果分值 参考结果 实际结果 存在问题/说明
1 使用成 熟度 数据易用性 5 是 是 该评价指标赋分5分。 无问题,有数据说明书。
2 表结构稳定性 5 是 是 该评价指标赋分5分。 无问题,评价期内未变更表结构,变更次数不 大于1次(即评价期内变更次数上限)。
A.1.2.3
服务保障评价
赋分20分,评价结果示例见表A.3。
10
DB 3307/T 137—2024
表 A.3
服务保障评价结果示例
序号 一级 指标 二级 指标 三级指标 指标评定 结果分值 参考结果 实际结果 存在问题/说明
1 服务 保障 问题数 据整改 情况 问题数据及时整改比例 10 100% 100% 该评价指标赋分10分。 无问题,全部及时整改。
2 数据审批通过比例 5 100% 90% 该评价指标赋分5分。 无问题,全部通过。
3 数据审 批情况 数据审批及时性 5 100% 100% 该评价指标赋分5分。 无问题,全部及时审批。
A.1.2.4
共享成效评价
赋分10分,评价结果示例见表A.4。
表 A.4
共享成效评价结果示例
序号 一级 指标 二级指标 指标评定 结果分值 参考结果 实际结果 存在问题/说明
1 共享 成效 数据使用评分 3 5 4 该评价指标赋分5分。 存在问题,使用方评价平均分为3分。
2 数据共享次数比例 5 1% 2% 该评价指标赋分5分。 无问题,共享占比高。
3 接口共享次数比例 / / / 该评价指标不赋分。 数据为非接口。
A.1.3
报告总结与意见建议示例
报告总结与意见建议包含结论及意见建议相关内容,示例见表A.5。
表 A.5
报告总结与意见建议示例
结论:整体质量较高,符合评价要求。 需要重点关注以下问题: 1.区域覆盖存在问题,需要补充兰溪市数据; 2.数据记录准确性存在问题,需要对1000条不准确记录进行治理; 3.反馈问题数据存在问题,超过5%的上限阈值,需要对1000条问题数据进行治理; 4.数据使用评分存在问题,需要与使用方沟通使用体验不足的原因,并进行整改。
11
DB 3307/T 137—2024
参 考 文 献
[1] GB/T 36344—2018 信息技术 数据质量评价指标
[2] GB/T 36468—2018 物联网 系统评价指标体系编制通则
12
上一章:DB3308/T 124-2024 基层智治大脑 感知平台技术规范 下一章:DB3307/T 138-2024 “八婺·石榴红”社区建设与服务规范

相关文章

DB5201/T 137-2024 基于移动通信数据的居民出行调查技术规范 DB/T 97-2024 地震观测数据质量评价规范 全球导航卫星系统观测 T/CSES 137-2024 生物多样性领跑企业评价技术导则 DB5206/T 170-2024 公共数据综合服务平台公共数据共享规范 T/CVMA 137-2024 繁育猫福利规范 T/GDIIA 006.08-2023 数据治理 第8部分:数据治理质量评价规范 DB2301/T 184-2024 公共数据 数据治理规范 Q/SY 01001-2016 地震数据处理质量分析与评价规范