
ICS 35.240 CCS L 70 DB11
北
京 市 地 方 标 准
DB11/T 2351—2024
数据资源治理通用技术要求
General technical requirements for data resource governance
2024-12-25 发布 2025-04-01 实施
北京市市场监督管理局
发 布
DB11/T 2351—2024
目 次
前 言 ............................................................................. III 1 范围 ................................................................................. 1 2 规范性引用文件 ....................................................................... 1 3 术语和定义 ........................................................................... 1 4 缩略语 ............................................................................... 2 5 治理框架 ............................................................................. 2
6 数据架构管理 ....................................................................... 3
6.1 总体要求 ......................................................................... 3 6.2 数据资源盘点 ..................................................................... 3 6.3 数据资源分布 ..................................................................... 3 6.4 数据资源分层结构 ................................................................. 4 6.5 数据资源分类 ..................................................................... 5 7 数据资源规范管理 ..................................................................... 5 7.1 业务词汇管理 ..................................................................... 5 7.2 参考数据和主数据 ................................................................. 5 7.3 数据项要求 ....................................................................... 6 8 数据质量管理 ......................................................................... 6 8.1 质量核验 ......................................................................... 6 8.2 质量分析 ......................................................................... 7 9 元数据管理 ........................................................................... 7 9.1 需求分析 ......................................................................... 7 9.2 元模型管理 ....................................................................... 8 9.3 编制元数据规范 ................................................................... 8 9.4 存储 ............................................................................. 8 9.5 创建与采集 ....................................................................... 8 9.6 集成与变更 ....................................................................... 8 9.7 应用 ............................................................................. 8 9.8 管理机制与评估 ................................................................... 8 10 数据生存周期管理 .................................................................... 8 10.1 数据资源接入 .................................................................... 8 10.2 数据资源探查 .................................................................... 9 10.3 数据资源清洗转化 ................................................................ 9 10.4 数据资源整合 ................................................................... 12 10.5 数据资源存储与删除 ............................................................. 14 10.6 数据资源变更 ................................................................... 14 10.7 数据资源运维 ................................................................... 14
I
DB11/T 2351—2024
10.8 数据资源服务
................................................................... 15
附录 A(资料性)数据质量检核内容与方法举例 ............................................ 17
附录 B(资料性)数据质量问题分类 ...................................................... 20
参考文献
.............................................................................. 21
II
DB11/T 2351—2024
前 言
本文件按照 GB/T 1.1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定
起草。
本文件由北京市经济和信息化局提出并归口。
本文件由北京市经济和信息化局组织实施。
本文件起草单位:北京柏睿数据技术股份有限公司、京东科技有限公司、方正国际软件(北京)有
限公司、北京中软国际信息技术有限公司、北京市测绘设计研究院、中国汽车工程研究院股份有限公司、
东方微银科技股份有限公司、北京泰尔英福科技有限公司、北京精友时代信息技术发展有限公司、北京
水滴科技集团有限公司。
本文件主要起草人:赵菁华、李然辉、周天龙、高阳、朴晟宏、梁汉媚、祝晓坤、张煜、沈鹏、肖
丹、罗登亮、肖博胜、刘子莉、李孟凡、艾崧溥、李海翔、周晓波、徐璐希。
III
DB11/T 2351—2024
数据资源治理通用技术要求
1 范围
本文件给出了数据资源治理框架,提出了数据架构、数据规范管理、数据质量、元数据和数据资源
生存周期的技术要求。
本文件适用于数据资源治理的规划、组织和实施。
注:本文件不涉及数据治理组织和数据安全管理。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB 18030 信息技术 中文编码字符集
GB/T 18391.1 信息技术 元数据注册系统(MDR) 第 1 部分:框架
GB/T 35295 信息技术 大数据 术语
GB/T 36073 数据管理能力成熟度评估模型
3 术语和定义
GB/T 18391.1 和 GB/T 35295 界定的以及下列术语和定义适用于本文件。
3.1
数据资源 data resources
具有或预期具有价值的数据集合。
注:数据资源多以电子形式存在。
3.2
元数据 metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和
数据易变性的数据。
[来源:GB/T 36073—2018,3.8]
3.3
数据生存周期 data lifecycle
将原始数据转化为可用于行动的知识的一组过程。
[来源:GB/T 36073—2018,3.14]
3.4
数据资源治理 data resource governance
对数据资源进行处置、规范化和利用的过程。
3.5
1
DB11/T 2351—2024
数据血缘 data lineage
在数据生存周期中,从数据的产生、处理、加工、融合、流转到最终消亡,数据之间自然形成的关
联关系。又称为数据血统、数据起源、数据谱系。
3.6
参考数据 reference data
对其他数据进行分类和规范的数据。
[来源:GB/T 36073—2018,3.13]
4 缩略语
下列缩略语适用于本文件。
ADS:应用数据存储(Application Data Store)
CRUD:创建、读取、更新和删除(Creat Read Upadte and Delete)
DIM:维度(dimension)
DWS:数据仓库服务(Data Warehouse Service)
DWT:数据仓库主题(Data Warehouse Topic)
ETL:数据提取、转换和加载(Extraction-Transformation-Loading)
JSON:JavaScript 对象表示法(JavaScript Object Notation)
KPI:关键绩效指标(Key Performance Indicator)
ODS:操作数据存储(Operation Data Store)
OLAP:联机分析处理(Online Analytical Processing)
SLA:服务级别协议(Service Level Agreement)
URL:统一资源定位符(Uniform Resource Locator)
5 治理框架
数据资源治理框架主要涵盖数据架构管理、数据生存周期管理以及数据治理组织构建这三个重要
部分。其中,数据架构管理作为数据治理的根基,会依据业务需求,对需要接入的数据源展开盘点工作,
进而生成数据源清单,同时精心规划数据分层与数据分布等事项。数据生存周期管理涵盖数据资源接入、
探查、清洗转换、整合、存储和删除、变更、运维以及服务等八个阶段,并且数据规范管理、质量管理、
安全管理和元数据管理贯穿于该周期的各个环节。而数据治理组织则致力于提供系统地管理与运用企
业数据资源的能力,保障数据的质量、安全及合规性,以此为企业的业务决策与运营效率提供有力支撑。
数据资源治理框架图如图 1 所示。
2
DB11/T 2351—2024
图 1 数据资源治理框架
6 数据架构管理
6.1 设计要求
数据架构设计时应保证:
a) 明确识别各组织的数据需求,基于数据资源盘点的结果构建数据资源目录,设计和维护数据架
构;
b) 使用数据架构来指导数据集成和控制,并使数据资源汇聚与需求保持一致;
c) 开展数据模型设计、数据流设计,并明确数据分布情况,管理数据模型和策略以及规则。
6.2 数据资源盘点
数据资源盘点应符合下列要求:
a) 梳理本组织数据资源,形成统一标准、统一管理和统一服务的数据资源清单,掌握全局数据资
源的现状和特点,为数据资源的治理提供基础支撑;
b) 以国家、行业现有的基础信息库为基础,梳理形成业务相关的基础库;将数据资源基础库进行
数据目录的分级分类,对应数据资源进行编码和标识;
c) 将整理、编码标识后的数据进行数据资源注册、入库等操作。
6.3 数据资源分布
应根据 GB/T 36073 要求,针对数据模型中的数据定义,明确数据在组织、流程、系统等方面的分
布关系,制定 CRUD 规划,确保数据的安全及权属关系。以企业采购管理业务为例,其数据资源分布如
图 2 所示。
3
DB11/T 2351—2024
图 2 CRUD 矩阵示例
其中主题域是采购与供应商,主要涉及两类数据实体供应商和采购合同。其中描述供应商的属性
包括供应商基本信息、潜在供应商信息、供应商绩效、供应商认证信息和供应商评价。以供应商基本
信息为例,该信息只能在财务MIS系统中创建、修改和删除,可以被项目管理、供应商管理、采购管理
等系统读取。
6.4 数据资源分层结构
6.4.1 分层要求
应设计数据结构、减少重复开发、屏蔽源数据的影响等信息,实现数据血缘追踪。数据架构应至
少包括数据来源层、数据支撑层、数据存储层和数据分析层,如图3所示。
图 3 数据分层结构
6.4.2 数据来源层
本层宜包括公共数据、企业数据和个人数据,涵盖传统的数据库、数据仓库、分布式数据库等。
6.4.3 数据支撑层
通过统一采集平台、统一交换平台、统一调度平台和接口监控平台实现对数据资源治理的支撑工作。
6.4.4 数据存储层
4
DB11/T 2351—2024
6.4.4.1 存储层组成
本层存储经过清洗处理后的可用于生产系统的数据,宜包括元数据,业务数据库,模型数据库等。
数据存储宜划分为五层。
a) ODS:保存最原始数据,按业务概念组织细节数据,并进行名称、代码等标准化处理后长期保
存。
b) DWS:存储整合后的明细数据,在本层应进行指标与维度的标准化,包括数据清洗、脱敏、维
度退化等,保证指标数据的唯一性。
c) DIM:公共维度表,用于建立一致性维度数据,规范化维度属性,降低数据计算口径和算法不
一致风险。
d) DWT:存储汇总数据,基于各个主题的加工和使用的共性聚合值。
e) ADS:面向业务定制的应用数据,根据不同的业务需求采用星型或雪花型模型设计方法构建的
数据集市。
6.4.4.2 数据资源流向
数据流向按 DWS→DWT→ADS 顺序进行,并符合下列要求:
a) 不应同层依赖;
b) ADS 不应直接使用 DWS 的表;
c) 不应出现反向依赖;
d) 应避免数据链路成环。
6.4.5 数据分析层
本层实现对数据的深加工,宜建立满足需求的数据统计分析模型,建立大数据运行处理平台。
6.5 数据资源分类
应进行数据资源分类,将数据进行主题域划分、归类和分析利用:
a) 按照业务或者业务过程划分;
b) 根据需求方划分;
c) 按照功能或者应用划分;
d) 按照部门划分。
7 数据资源规范管理
7.1 业务词汇管理
业务词汇管理包括下列内容。
a) 应支持业务词汇表管理权限配置。
b) 应建立通用公开业务词汇表。
c) 业务词汇管理内容应包括:
1) 标准文档库管理;
2) 限定词、同义词、术语等信息库管理;
3) 标准字典管理;
4) 数据源字典管理。
7.2 参考数据和主数据
参考数据和主数据要求包括:
a) 应能够识别数据值域,包括参考数据和主数据取值范围;
5
DB11/T 2351—2024
b) 应支持参考数据、主数据和应用系统的集成。
7.3 数据项要求
数据项定义应包括但不限于:
a) 数据命名;
b) 数据类型;
c) 长度;
d) 业务含义;
e) 计算口径;
f) 归属部门。
8 数据质量管理
8.1 质量核验
8.1.1 总体要求
质量核验要求应包括:
a) 明确数据质量监控的数据指标项;
b) 评估使用的数据质量度量维度及其权重值;
c) 定义表示标准质量和质量差数据的值和范围;
d) 对不同的度量规则,执行不同的数据质量评估;
e) 查看并确认数据质量是否可被接受;
f) 在适当数据流转中采取纠正措施;
g) 定期重复上述步骤。
8.1.2 规范性检核内容
规范性检核内容应包括:
a) 数据标准;
b) 数据模型;
c) 元数据;
d) 业务规则;
e) 权威参考数据;
f) 安全规范。
具体检核方法与描述参见附录 A 中表 A.1。
8.1.3 完整性检核内容
完整性检核内容应包括:
a) 数据元素完整性;
b) 数据记录完整性。
具体检核方法与描述参见附录 A 中表 A.2。
8.1.4 准确性检核内容
准确性检核内容应包括:
a) 数据内容正确性;
b) 数据格式合规性;
c) 数据重复率;
6
DB11/T 2351—2024
d) 数据唯一性;
e) 脏数据出现率。
具体检核方法与描述参见附录 A 中表 A.3。
8.1.5 一致性检核内容
准确性检核内容应包括:
a) 相同数据一致性;
b) 关联数据一致性。
具体检核方法与描述参见附录 A 中表 A.4。
8.1.6 时效性检核内容
准确性检核内容应包括:
a) 基于时间段的正确性;
b) 基于时间点及时性;
c) 时序性。
具体检核方法与描述参见附录 A 中表 A.5。
8.1.7 可访问性检核内容
可访问性检核内容应包括:
a) 可访问性;
b) 可用性。
具体检核方法与描述参见附录 A 中表 A.6。
8.2 质量分析
8.2.1 定性分析
数据质量定性分析可采用第三方评测法、用户反馈法,专家评议等方法。质量子元素评分根据定性
评价进行。
8.2.2 定量分析
数据质量定量分析可采用回归分析、因子分析、鱼骨图分析、帕累托分析、矩阵数据分析等方法。
8.2.3 综合分析
宜采用定性和定量分析相结合的方法对数据质量进行分析。
8.2.4 质量问题原因分类
影响数据质量的问题主要包括技术、业务、管理三个方面,参见附录 B。
9 元数据管理
9.1 需求分析
应明确元数据类型和详细级别,需求分析内容包括但不限于以下内容。
a) 更新频次:元数据属性和属性集更新的频率。
b) 同步情况:数据源头变化后的更新时间。
c) 历史信息:是否需要保留元数据的历史版本。
d) 访问权限:谁可以访问元数据,如何访问。
e) 存储结构:元数据如何通过建模来存储。
7
DB11/T 2351—2024
f) 集成要求:元数据从不同数据源的整合程度、整合的规则。
g) 运维要求:更新元数据的处理过程和规则(记录日志和提交申请)。
h) 管理要求:管理元数据的角色和职责。
i) 质量要求:元数据的质量需求。
j) 安全要求:元数据的安全需求,是否可以公开等。
9.2 元模型管理
元模型的类型应包括但不限于以下内容。
a) 业务类元模型:如指标、KPI、报表等元模型。
b) 技术类元模型:如关系型数据库、OLAP、接口、ETL 等元模型。
c) 管理类元模型:包括系统资源、人员管理、任务管理等元模型。
9.3 编制元数据规范
规范包括但不限于元数据标准、处理过程文档、数据交换格式及应用程序接口设计等。
9.4 存储
应建立元数据存储库,实现元模型以及元数据的存储,可采用不同的架构方法存储元数据,包括但
不限于集中式、分布式、混合式等,具体如下:
a) 集中式元数据存储由单一的元数据存储库组成,不支持将请求从用户直接传递给各种工具,适
用于寻求高度一致性的组织;
b) 分布式元数据存储架构,元数据应分散存储在各自的源系统中,通过实时从源系统检索数据来
响应用户请求;
c) 混合式架构应结合集中式和分布式架构的特性。
9.5 创建与采集
应基于相对应的元模型,获取组织定义的元模型中所需要管理的元数据信息。自动采集包括但不限
于使用适配器、扫描仪、网桥应用程序等。
9.6 集成与变更
应对不同类型、不同来源的元数据进行集成,包括从组织外部获取的数据中的元数据,并将技术元
数据与相关的业务、流程和管理元数据集成在一起,形成对数据描述的统一视图,并基于规范的流程对
元数据的变更进行及时更新和管理。
9.7 应用
应根据组织业务需求实现基于元数据的共享服务与应用,包括但不限于元数据的查询、统计、基于
元数据的血缘分析、影响分析等。
9.8 管理机制与评估
应建立元数据管理机制,明确元数据的管理过程及角色、职责;建立元数据管理的质量标准和评估
指标,开展元数据绩效评估并持续改进。
10 数据生存周期管理
10.1 数据资源接入
10.1.1 总体要求
数据接入应满足以下要求。
8
DB11/T 2351—2024
a) 数据质量:确保数据的准确性、完整性和唯一性。
b) 数据安全:保障数据的机密性、完整性、可用性,确保数据在传输和存储过程中不被泄露、丢
失或被篡改。
c) 数据格式:按照一定的数据模型和数据字典定义数据结构和格式,确保数据的统一性和标准化。
d) 数据加工:在入库前对数据进行清洗、转换、集成等加工处理,以满足数据仓库的需求。
e) 数据可追溯:记录数据来源和处理过程,保留原始数据和处理日志,方便数据审计和追溯。
f) 接入控制:控制数据入库的频率和数据量,避免过度入库导致数据仓库不稳定或占用过多存储
资源。
10.1.2 接入数据源
接入源类别包括但不限于:
a) 关系型数据库;
b) 非关系型数据库;
c) 接口服务;
d) 实时数据库日志;
e) 消息队列服务;
f) 文本文件;
g) 压缩包、图片等二进制文件。
10.1.3 接入方案
根据明确的数据源类型制定接入方案,包括但不限于:
a) 接口推送/拉取数据;
b) 数据库源采集;
c) 消息队列生产/消费数据;
d) FTP 文件推送/拉取。
10.1.4 接入格式
数据接入格式可符合如下要求:
a) 支持多种数据格式;
b) 规定数据格式的具体规范,例如字段名称、字段类型、字段长度等。
10.1.5 接口要求
应规定数据接口的要求,例如接口名称、参数、返回值等。
10.1.6 接入流程
应制定数据接入流程,明确数据接入责任。流程应包括数据接入申请、审核、测试、上线等环节。
10.2 数据资源探查
数据探查应包括单表数据内容分析、多表间数据关系分析的指标定义和准入标准等。
10.3 数据资源清洗转换
10.3.1 数据清洗
10.3.1.1 清洗操作
数据清洗应进行以下操作。
a) 非空检核:若字段应为非空时,对字段数据进行非空检核。
b) 主键重复检核:多个业务系统中同类数据经过清洗后,在统一保存时,为保证主键唯一,进行
9
DB11/T 2351—2024
检核工作。
c) 非法代码清洗:对非法代码、代码与数据标准不一致等情况进行校核及修正。
d) 非法值清洗:对取值错误、格式错误、多余字符、乱码等情况进行校核及修正。
e) 数据格式检核:通过属性值的格式检核来衡量数据准确性,包括时间格式、币种格式、多余字
符和乱码等。
f) 记录数检核:对各个系统相关数据之间的数据总数检核,或者数据表中每日数据量的波动检核。
10.3.1.2 清洗流程
数据清洗从数据的准确性、完整性、一致性、唯一性、时效性和有效性方面处理数据的缺失值、越
界值、不一致代码和重复数据等问题,数据清洗流程如图4所示。
图 4 数据清洗流程
10.3.2 数据转换
10.3.2.1 ETL 设计要求
10.3.2.1.1 ETL 数据映射
应包括源数据集属性、目标数据集属性和 ETL 规则,具体内容如下。
a) 源数据集属性和目标数据集属性应包括:
1) 实体名称;
2) 字段名称;
3) 字段简述;
4) 类型;
5) 非空属性。
b) ETL 规则:
10
DB11/T 2351—2024
1) 应能够建立数据源过滤规则;
2) 应描述从源数据集获取数据过程中过滤掉记录的规则;
3) 应设置关联规则;
4) 应定义列转换规则;
5) 应具备目标数据集更新规则;
6) 应建立 ETL 作业列表。
10.3.2.1.2 ETL 抽取方式
ETL 抽取方式应包括但不限于:
a) 全量抽取;
b) 增量抽取;
c) 触发器方案;
d) 时间戳方案;
e) 日志方案;
f) 消息队列方案。
10.3.2.2 ETL 开发要求
10.3.2.2.1 ETL 开发原则
ETL 开发宜遵循以下基本原则:
a) 代码要求结构应清晰、整齐、整体层次分明;
b) 代码在合适的位置添加必要的注释;
c) 代码上下文风格统一;
d) 作业命名规则应按顺序至少包括作业类型、有效的描述信息和作业编号三部分内容。
10.3.2.2.2 开发流程
开发流程要求应包括但不限于:
a) 建立完善的 ETL 开发流程,每个环节都应严格管控。ETL 开发流程应包括但不限于调研应求、
评审、开发、测试和上线;
b) 建立 ETL 变更流程:
c) ETL 变更流程与需求变更紧密结合;
d) 修改 ETL 映射文件和业务逻辑文件应从文档开始,并有统一的入口;
e) 修改文档应包括版本号、修改原因描述、修改过程、修改时间和修改影响范围。
10.3.2.3 ETL 维护要求
10.3.2.3.1 预警机制
ETL 维护预警机制包括下列内容。
a) ETL 日志应分为 3 类:
1) 执行过程日志;
2) 错误日志;
3) 总体日志。
b) 警告发送。
c) 重跑机制。
d) 数据一致性检核。
e) 业务数据检核。
10.3.2.3.2 维护管理机制
11
DB11/T 2351—2024
应建立维护管理机制,包括但不限于:
a) 建立快速访问的远程登录机制;
b) 维护人员被告知错误后,应快速分析定位问题类型并处理;
c) 应日常收集问题日志,定期进行问题复盘;
d) 开发不规范导致的维护问题,应定期进行开发规范培训,视情况加入考核机制。
10.3.2.4 数据修正处理
10.3.2.4.1 空值处理
按照缺失比例和字段重要性分别制定处理策略,应包括直接删除和填充内容。
a) 对于无用字段应删除。
b) 对于缺失的内容,应按规则进行填充,填充方法包括:
1) 以业务知识或经验推测填充缺失值;
2) 以同一指标的计算结果(均值、中位数、众数等)填充缺失值;
3) 以不同指标的计算结果填充缺失值。
10.3.2.4.2 格式内容处理
格式内容处理可包括 3 种情况:
a) 将时间、日期、数值、全半角等显示格式统一;
b) 若有不该存在的字符,可找出潜在问题,并去除错误的字符;
c) 对于内容与该字段应有内容不符时,详细识别问题产生原因,不应简单删除。
10.3.2.4.3 逻辑错误处理
逻辑错误处理应包括去重、去除异常值和修正矛盾内容:
a) 去重处理应在格式内容处理之后;
b) 异常值处理首先应识别异常值,然后由操作人员按照经验和业务流程判断其值的合理性;
c) 修正矛盾内容应通过字段相互验证方式实现。
10.3.2.4.4 其他情况处理
其他情况包括但不限于:
a) 敏感数据处理;
b) 非需求数据处理;
c) 枚举值处理;
d) 关联性验证。
10.4 数据资源整合
10.4.1 数据模型设计
10.4.1.1 模型设计要求
模型设计要求应包括逻辑模型与物理模型规范,具体内容如下。
a) 逻辑模型要求:
1) 应具有统一的数据结构、统一的视图;
2) 应具有灵活性和可扩展性;
3) 应确定主题域;
4) 应确定数据存储规划;
5) 应定义关系表模式。
b) 物理模型要求:
12
DB11/T 2351—2024
1) 应确定数据的存储结构;
2) 应确定索引策略;
3) 应确定数据与索引存储位置;
4) 应确定存储存分配参数;
5) 模型命名要求;
6) 模型关系要求;
7) 字段命名要求;
8) 约束要求;
9) 建模要求。
10.4.1.2 命名要求
数据模型设计的命名要求包括下列内容。
a) 通用命名,宜符合:
1) 表和字段名以英文字母开头;
2) 表和字段长度不超过 64 个英文字符;
3) 表和字段名使用小写英文单词,命名需满足信息描述的定义;
4) 表和字段命名采用下划线来分隔词根,优先使用词根中已有关键字;
5) 表和字段名不宜使用非标准的缩写,不宜使用 SQL 中的关键字;
6) 数据域命名要求:使用与业务系统相关的、常用的命名方式或缩写,如日志域(log)、
广告域(adv)、位置域(loc)、用户域(usr)等;
b) 表命名要求,宜使用单数名词、复数名词、前缀等:
1) 约定缩写;
2) 常量命名要求;
3) 文件命名要求;
4) 规范代码编写习惯。
c) 维度字段命名要求,宜符合:
1) 与原系统业务字段保持一定的关联,根据业务特色沉淀公共命名属性和专有名词;
2) 日期维度按定义的统一分区格式存储。
d) 指标字段命名要求,宜符合:
1) 指标命名方式可包括业务主题(修饰词)、量化词(词根)、周期限定词等;
2) 基础指标;
3) 普通指标命名要求;
4) 日期类型指标命名要求;
5) 聚合类型指标。
10.4.2 脚本开发要求
数据脚本开发要求应包括但不限于以下内容:
a) 建表要求;
b) 数据格式要求;
c) 作业流要求;
d) 数据字典要求;
e) 维度要求;
f) 指标来源要求;
g) 指标一致性建设要求;
h) 迭代要求;
i) 数据要求;
13
DB11/T 2351—2024
j) ETL 要求;
k) 错误处理要求;
l) 文档要求;