
ICS 01.040.35 35
CCS L 70
福
建 省 地 方 标 准
DB35/T 2240—2024
公共数据清洗技术要求
Technical requirements for public data cleaning
2024 - 12 - 24 发布
2025 - 03 - 24 实施
福建省市场监督管理局 发 布
DB35/T 2240—2024
目
次
前言 .................................................................................. II
1 范围 ................................................................................ 1
2 规范性引用文件 ...................................................................... 1
3 术语和定义 .......................................................................... 1
4 基本原则 ............................................................................ 2
5 过程要求 ............................................................................ 2
6 方法要求 ............................................................................ 5
7 安全要求 ............................................................................ 7
附录 A(资料性) 数据清洗的常见方法 ....................................................8
参考文献 ............................................................................... 9
I
DB35/T 2240—2024
前
言
本文件按照GB/T 1.1—2020《标准化工作导则
起草。
第1部分:标准化文件的结构和起草规则》的规定
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由福建大数据一级开发有限公司提出。
本文件由福建省信息化标准化技术委员会(SAFJ/TC 11)归口。
本文件起草单位:福建大数据一级开发有限公司、福建省数字经济发展促进中心、福建省市场监督
管理局行政服务中心、福建省网络与信息安全测评中心、福建省建设信息中心、福建奇比特信息科技有
限公司。
本文件主要起草人:李喆、陈国清、徐侃、涂平、王宇奇、邹建红、黄炜、石福仁、游鄂平、梁煜、
张镇晖、李元、傅腾宇、李海、吴春华、马腾、陈闪闪、谢丹丹、张健文。
II
DB35/T 2240—2024
公共数据清洗技术要求
1 范围
本文件规定了公共数据清洗的基本原则、过程要求、方法要求和安全要求。
本文件适用于一体化公共数据的抽取、转换、核验、加载等清洗环节。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 22239 信息安全技术 网络安全等级保护基本要求
GB/T 35274 信息安全技术 大数据服务安全能力要求
GB/T 36344—2018 信息技术 数据质量评价指标
GB/T 37973 信息安全技术 大数据安全管理指南
GB/T 39477 信息安全技术 政务信息共享 数据安全技术要求
GB/T 43697 数据安全技术 数据分类分级规则
3 术语和定义
下列术语和定义适用于本文件。
3.1
公共数据 public data
公共管理和服务机构在依法履职或者提供公共管理和服务过程中收集、产生的,以一定形式记录、
保存的各类数据及其衍生数据。
注1:公共管理和服务机构是指政务部门以及公益事业单位、公用企业。
注2:包含政务、公益事业单位数据和公用企业数据。
3.2
公共数据资源目录 public data resource catalog
依据公共数据资源的元数据,按照一定的分类方法进行编码的一组信息,用以描述各个公共数据资
源的特征,便于公共数据资源的检索、定位与获取。
3.3
缺失值 missing value
在数据归集与整理过程中未获得的数值、属性或内容。
3.4
重复值 duplicate value
数据集存在两条及以上完全相同的记录,或在某一字段内存在多个相同的值。
1
DB35/T 2240—2024
4
基本原则
安全性
数据在清洗过程中应防止数据泄露、篡改或非法访问。
合法性
数据清洗过程和数据内容应符合《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》
等相关法律法规的要求。
可审计性
数据清洗的全过程应跟踪和记录,确保数据的来源、处理步骤、结果输出等可追溯。
5
过程要求
基本流程
数据清洗基本流程应包含检测分析、确定清洗范围、定义清洗规则、数据抽取、清洗转换、结果核
验、数据标识和数据加载等环节(见图1)。
2
DB35/T 2240—2024
开始
检测分析
确定清洗范围
定义清洗规则
数据抽取
清洗转换
结果核验 不通过 数据标识
通过
数据加载
结束
图1 数据清洗基本流程
5.2
检测分析
应满足以下要求:
a) 根据被检测分析对象的特点和分析需求,设计具有针对性的检测分析方案;
b) 从数据量、类型、内容、关系、数值范围等维度进行检测分析;
c) 检测分析颗粒度达到字段级别,对数据中的每个字段、每个值进行检测分析;
d) 采用缺失值、重复值、异常值、数据格式等一种或多种检测方法;
e) 检测分析结果包含数据基本属性分析、数据的分布情况、数据的相关性和趋势、检测时间、
检测方法及处理建议等。
5.3
确定清洗范围
应满足以下要求:
a) 根据检测分析结果,识别数据质量问题,确定清洗目标;
3
DB35/T 2240—2024
b) 根据数据的重要程度和数据质量情况,确定清洗任务优先级;
c) 将不符合业务使用目标的数据存入问题数据库表,用于后续查证或重新使用。
5.4
定义清洗规则
应满足以下要求:
a) 缺失值清洗规则:根据业务规则,对缺失数据进行填充或删除;
b) 重复值清洗规则:根据唯一性约束,去除数据集的重复值;
c) 异常值清洗规则:根据业务逻辑和规则,对异常数据进行删除、修正、标记;
d) 数据格式清洗规则:根据业务规则,将数据按照统一的格式进行转换。
5.5
数据抽取
应满足以下要求:
a) 具备全量抽取和增量抽取两种方式;
b) 支持结构化、半结构化、非结构化等多种数据类型抽取;
c) 配置抽取任务包括定义抽取的频率、时间、顺序等参数。
5.6
清洗转换
应满足以下要求:
a) 按照第 6 章的规定方法对获取的数据进行规范化处理;
b) 支持多任务并行处理,按照任务优先级进行依次处理;
c) 数据清洗转换任务结束后,及时删除清洗转换产生的中间或临时数据。
5.7
结果核验
5.7.1 核验内容
应满足以下要求:
a) 检查数据集是否存在缺失值、重复值、异常值;
b) 检查字段的类型与预期的数据类型是否一致,字段的长度是否符合预定的长度限制;
c) 检查数据集的记录数量或总数据量是否符合预期值;
d) 检查数据是否满足特定的业务规则,包括数据依赖关系是否正确,数据的时序性是否合理,
以及数据是否符合业务逻辑等。
5.7.2 核验要求
应满足以下要求:
a) 按 GB/T 36344—2018 第 5 章中的数据质量评价指标制定核验规则;
b) 按 5.7.1 的规定进行数据核验;
c) 当数据核验通过时,进行数据加载;
d) 当数据核验不通过时,进行数据标识。
5.8
数据加载
应满足以下要求:
a) 综合数据规模、增长速度、业务需求、数据加载有效性等因素,确认目标环境是否满足要求;
4
DB35/T 2240—2024
b) 明确数据安全加载的具体要求、规则和方法,包括数据加密、传输安全等;
c) 通过对比源数据和目标环境中的数据来确认数据的完整性、准确性和一致性等进行数据加载
验证;
d) 详细记录加载过程中出现的异常状况,包括异常类型、发生时间、影响范围等信息;
e) 及时处理加载异常记录,包括数据修复、重新加载等;
f) 提供数据加载通道的冗余备份机制,防止因单一通道故障导致的数据加载中断或数据丢失;
g) 加载完成后,删除数据加载通道中的缓存数据,释放系统资源。
5.9
数据标识
应满足以下要求:
a) 对每个核验不通过的数据进行唯一性标识;
b)
数据标识包含核验不通过原因、原始来源以及处理过程等描述信息,并存储在专门的数据库表;
c) 对标识的数据进行检测分析,以确定问题根源并采取相应的纠正措施。
6 方法要求
6.1
缺失值清洗
6.1.1 缺失值识别
宜采用以下方式:
a) 根据业务规则,使用编程语言的库函数或数据库处理工具扫描数据集并标识缺失值;
b) 利用统计工具及可视化方法(如箱线图、散点图)对数据集的缺失数据进行统计和识别。
6.1.2 缺失值处理
宜采用以下方式:
a) 当数据集某个字段的缺失率超过预设的阈值,且该字段对业务分析的重要性较低时,直接删
除该字段,删除前备份当前数据;
b) 通过插值、固定值、均值、中位数、众数等方法补齐无法删除的缺失值,常见的缺失值补全
方法见附录 A 的 A.1。
6.1.3 缺失值清洗结果核验
宜采用以下方式:
a) 检查数据集是否还存在未处理的缺失值;
b) 对比处理前后的非空值数量或缺失值比例,检查填充后的值是否符合业务逻辑。
6.2
重复值清洗
6.2.1 重复值识别
宜采用以下方式:
a) 通过编程语言的库函数或数据库处理工具,比较数据集的所有字段或选定的关键字段,识别
出重复数据;
5
DB35/T 2240—2024
b) 利用统计工具计算每列(或每行)的重复数据的数量或比例,通过模糊匹配技术处理拼写错
误或缩写等导致的重复。
6.2.2 重复值处理
宜采用以下方式:
a) 数据集存在完全相同的记录时,直接删除多余的重复项,仅保留一条记录;
b) 重复数据中包含不同的信息,根据业务规则和数据统一性约束,将信息合并成一条记录。
6.2.3 重复值清洗结果核验
宜采用以下方式:
a) 对比处理前后的重复数量或重复数据比例,计算出重复数据去除率;
b)
去除率未达到要求时,利用编程语言的库函数或数据库处理工具,再次检查数据集的重复数据。
6.3
异常值清洗
6.3.1 异常值识别
宜采用以下方式:
a) 根据业务规则,识别数据中的异常值,如超出预定范围的数值、逻辑错误的数据等;
b) 利用统计方法、聚类方法、密度估计方法及机器学习模型识别异常值,常见的异常值识别方
法见附录 A 的 A.2。
6.3.2 异常值处理
宜采用以下方式:
a) 异常值为非关键重要信息时,直接删除,删除前备份;
b) 异常值为关键重要信息时,根据业务规则采用固定值、均值、中位数、众数等方法进行修正
处理,无法修正的,对异常值进行明确标记。
6.3.3 异常值清洗结果核验
宜采用以下方式:
a) 根据业务逻辑和规则对清洗结果进行核验;
b) 对比处理前后的异常值数量,核验所有异常值是否已被正确删除、修正或标识。
6.4
数据格式清洗
6.4.1 数据格式识别
宜采用以下方式:
a) 利用编程语言的库函数或数据库处理工具,将数据与元数据进行对比,识别出格式不一致的
数据;
b) 通过预设的数据验证规则,如数据类型、数据单位和数据值范围等,利用规则引擎对数据集
进行扫描,判断记录是否符合预设规则。
6
DB35/T 2240—2024
6.4.2 数据格式处理
宜采用以下方式:
a) 根据具体的业务逻辑,对数据字段类型进行转换;
b) 利用规则引擎匹配和替换不符合要求的数据,在替换过程中,新数据要符合数据规范和质量
要求;
c) 常见的数据格式处理方法见附录 A 的 A.3。
6.4.3 数据格式清洗结果核验
宜采用以下方式:
a) 与原始数据比对确认数据格式已修正;
b) 对已修正的数据格式进行再次核验。
7 安全要求
7.1
数据安全
数据清洗过程应符合GB/T 35274、GB/T 37973、GB/T 39477、GB/T 43697的相关规定。
7.2
网络安全等级保护
数据清洗网络安全等级保护应符合GB/T 22239的相关规定。
7.3
安全审计
应满足以下要求:
a) 记录管理员和用户的各类操作日志,对身份鉴别、策略管理、备份作业、恢复作业、数据库
操作等关键事件和操作进行审计,生成审计报告;
b) 建立安全事件响应机制,及时处置数据清洗过程中出现的安全问题,并记录处置过程和结果,
生成处理报告;
c) 日志记录和审计报告留存时间不少于 1 年。
7
DB35/T 2240—2024
附 录 A
(资料性)
数据清洗的常见方法
A.1 常见的缺失值补全方法
缺失值的补全方法需要根据数据的性质以及缺失值的分布情况进行评估,包括但不限于:
a) 均值/中位数/众数填充:根据数据分布特性,选择合适的统计量填充缺失值;
b) 固定值填充:使用特定值(如 0、-1 等)填充缺失值,适用于某些特定场景;
c) 向前/向后填充:使用前一个/后一个非缺失值填充缺失值;
d) 插值法:根据已知数据点,通过插值算法估算缺失值;
e) K 近邻填充:根据数据点的相似性,使用 K 个最近邻的数据点填充缺失值;
f) 模型预测填充:建立预测模型,根据其他字段的值预测缺失值。
A.2 常见的异常值识别方法
异常值的识别方法需要根据具体的数据集和业务背景来决定,包括但不限于:
a) 标准差法:假设数据服从正态分布,将位于平均值附近几个标准差之外的数据点视为异常值;
b) 箱线图法:通常将位于 1.5 倍或 3 倍四分位距(IQR)之外的数据点定义为异常值;
c) 百分位数法:选择将超过某个上/下分位数阈值的数据点视为异常值;
d) 密度估计法:利用概率密度函数估计数据分布,判断概率密度较低的数据点为异常值;
e) 拉依达准则(3σ准则):根据数据点与均值的偏差是否超过 3 倍标准差来判断异常值;
f) 聚类方法:将数据聚类,然后识别在聚类中心周围相对孤立的数据点作为异常值;
g) 回归分析:使用回归模型预测数据点,并将预测误差较大的数据点视为异常值。
A.3 常见的数据格式处理方法
数据格式处理方法,包括但不限于:
a) 日期时间格式处理:将包含日期和时间的数据转换为统一的日期时间格式,如将字符串类型
的日期时间转换为时间戳,或将时间戳转换为指定格式的日期字符串;
b) 字符串处理:对数据中的字符串进行清理和处理,如去除多余空格、删除特殊字符、转换大
小写等;
c)
数值类型转换:将数值型数据从字符串或其他格式转换为数值类型,以便进行数值计算和分析;
d) 数据单位转换:统一数据中的单位,如将温度从摄氏度转换为华氏度,或将长度从厘米转换
为英寸;
e) 数据分隔和合并:根据需要将数据中的字段进行分隔或合并。
8
DB35/T 2240—2024
参 考 文 献
[1]
GB/T 34960.5 信息技术服务 治理 第5部分:数据治理规范
[2]
《中华人民共和国数据安全法》(中华人民共和国主席令第八十四号)
[3]
《中华人民共和国个人信息保护法》(中华人民共和国主席令第九十一号)
[4]
《福建省大数据发展条例》
9