
ICS 35.240.01
CCS L 67 3301
浙
江 省 杭 州 市 地 方 标 准
DB3301/T 0468—2024
实有人口数据治理规范
2024-08-30 发布
2024-09-30 实施
杭州市市场监督管理局 发 布
DB3301/T 0468—2024
目
次
前言 ................................................................................. II
1 范围 ............................................................................... 1
2 规范性引用文件 ..................................................................... 1
3 术语和定义 ......................................................................... 1
4 基本要求 ........................................................................... 2
5 治理架构 ........................................................................... 2
6 治理过程 ........................................................................... 3
7 数据应用接口 ....................................................................... 7
8 数据评价与改进 ..................................................................... 7
附录 A(资料性) 实有人口和地址地名信表信息 ........................................... 8
附录 B(资料性) 数据清洗示例 ........................................................ 11
参考文献 ............................................................................. 13
I
DB3301/T 0468—2024
前
言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由杭州市数据资源管理局提出、归口并组织实施。
本文件起草单位:杭州市西湖区数据资源管理局、杭州市大数据管理服务中心、中共杭州市西湖区
委政法委员会、杭州市公安局西湖区分局、杭州西湖新基建数字技术有限公司、杭州数梦工场科技有限
公司、杭州西湖智算公共服务有限公司、杭州西湖投资集团有限公司、杭州市勘测设计研究院有限公司。
本文件主要起草人:陈宏、陈春江、方建军、李志强、吴宣铖、吴志伟、马文翰、孙慧洁、叶文烨、
商康俊、周丽华、丁鹏、施昶帅、念灿华、从方祥。
II
DB3301/T 0468—2024
实有人口数据治理规范
1 范围
本文件规定了实有人口数据治理的基本要求、治理架构、治理过程、数据应用接口、数据评价与改
进。
本文件适用于实有人口基础信息和地址信息的数据治理。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 2261.1 个人基本信息分类与代码 第1部分:人的性别代码
GB/T 2261.2 个人基本信息分类与代码 第2部分:婚姻状况代码
GB 3304 中国各民族名称的罗马字母拼写法和代码
GB/T 4658 学历代码
GB/T 4762 政治面貌代码
GB 11643 公民身份号码
GB/T 22239 信息安全技术 网络安全等级保护基本要求
GB/T 39477 信息安全技术 政务信息共享 数据安全技术要求
GA 214.12 常住人口管理信息规范 第12部分:宗教信仰代码
GA/T 1218 实有人口基础信息数据项
DB33/T 2487 公共数据安全体系建设指南
DB3301/T 0296—2022 社会治理要素统一地址规范
3 术语和定义
下列术语和定义适用于本文件。
实有人口 actual population
区域内实际居住的常住人口和流动人口。
数据治理 data governance
数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。
[来源:GB/T 34960.5—2018,3.1]
网格 grid
在社区(行政村)及其它特定区域划定的基层治理基本工作单元。
[来源:DB3301/T 0296—2022,3.6]
1
DB3301/T 0468—2024
数据仓 resource data warehouse
业务过程中收集、产生的,随时间动态更新,信息类型、格式等相对稳定的各类公共数据资源集合。
[来源:DB33/T 2350—2022,3.2.3.9]
4 基本要求
组织保障
应建立实有人口数据治理组织架构,包括数据管理者、数据执行者、数据提供者、数据使用者等,
主要职责:
a) 数据管理者:负责组织和管理数据治理的运行,建立和维护数据治理框架和流程,确保数据的
准确性、完整性和可靠性。牵头制定数据质量管理、数据分类和标准化、数据安全和隐私保护
等方面的工作。
b) 数据执行者:负责执行数据治理策略和规范,负责数据采集、数据处理、数据存储和数据访问
等具体的数据操作任务,按照规定的流程和标准处理数据,并确保数据的质量和安全。
c) 数据提供者:负责提供数据资源,包括数据的收集、整理、归档和更新等工作,按照规定的数
据标准和政策提供高质量的数据,支持组织的决策和业务需求。
d) 数据使用者:利用数据进行分析、决策和业务操作。应遵守数据治理规范,确保数据的合法使
用和保密性。提供数据使用的反馈和需求,改进数据治理的效果。
安全保障
4.2.1 安全管理应符合 GB/T 39477、DB33/T 2487 的规定。
4.2.2 数据归集、治理、应用等系统应达到 GB/T 22239 等级保护三级及以上的要求。
4.2.3 数据应存储于数据仓,并配置必要的安全防护、数据脱敏和审计功能,数据实时或定期备份。
4.2.4 应对数据的使用和维护行为进行监控和审计。
数据标准管理
4.3.1 应结合业务实际,统筹管理实有人口数据和地名地址数据相关标准。
4.3.2 应根据相关国家标准、行业标准、地方标准,规范数据资源管理工作。
4.3.3 应建立数据治理规则,对数据资源进行治理实施和处理。
5 治理架构
概述
实有人口数据治理的总体架构分为三层,包括数源层、治理层、应用层(见图1)。
2
DB3301/T 0468—2024
图1 总体架构
数源层
由多个部门提供实有人口和地名地址源数据,包括但不限于户籍数据、基层摸排数据、基层治理系
统中的人口数据、死亡人口数据、党员数据、失信执行人数据、门诊就诊数据、行政办件数据等。
治理层
实现实有人口的数据识别、数据归集、数据清洗、数据质量监督、问题数据处理、数据核查更新等
工作。
应用层
完成治理后的数据封装成接口,支撑数据应用。
6 治理过程
数据识别
6.1.1 应明确数据管理目标,用于指导后续的数据识别过程。
6.1.2 应对各个部门和系统的人口和地址数据进行调研和分析,了解各个部门和系统中存在的人口和
地址数据对象以及其属性。
6.1.3 应识别数据的唯一标识和核心特征等关键属性。
示例:在人口数据中,姓名、身份证号码、出生日期、户籍所在地等关键属性;在地址数据中,小区、楼牌、单元、
楼层、户室等关键属性。
6.1.4 应对数据进行比对和分析,识别重复的数据记录以及不一致的数据。
6.1.5 应与涉及人口和房屋数据的相关部门进行沟通和协作。了解各个部门的数据需求和使用情况,
3
DB3301/T 0468—2024
以及数据在业务过程中的流动情况。
6.1.6 应基于识别和分析的结果,制定人口和地址数据的数据管理策略。
数据归集
6.2.1 归集范围
包含管辖区域内多个部门以及上级部门回流的实有人口数据和地名地址数据资源。
6.2.2 归集类型
归集数据包括结构化数据、半结构化数据、非结构化数据:
a) 结构化数据:按照固定的模式和预定义的数据模型进行组织,数据元素之间有明确定义的关系,
以表格形式存储在关系型数据库中,具有明确的字段和数据类型,适合进行查询、分析和处理。
b) 半结构化数据:半结构化数据介于结构化数据和非结构化数据之间,具有一定的结构化特征,
但不符合传统关系型数据库的严格模式。半结构化数据通常是自描述的,结构和内容混合在一
起,如 HTML 文档、电子邮件等。
c) 非结构化数据:数据元素之间缺乏统一的组织结构和明确的关系,其格式和内容多样化,包括
文本文档、图像、音频、视频等。
6.2.3 归集方式
6.2.3.1 库表方式
宜采用ETL(Extract-Load-Transform)工具,实现周期性调度(实时、每日、每周、每月、每季
度、每半年、每年、其他、自定义)。
6.2.3.2 服务接口方式
宜包括资源性状态传输应用程序编程接口(RESTful API)、简单对象访问协议网络服务接口(SOAP
Web service)、网络套接字协议(WebSocket)等服务接口方式。
6.2.3.3 数据文件方式
数据文件方式采集的途径包括但不限于:文件传输协议(FTP)服务、邮件、介质等数据文件。格
式包括但不限于:可扩展标记语言(XML)、工作表(XLSX)、文本(CSV)、文档(DOC、DOCX)等。
6.2.3.4 数据填报方式
支持对地址地名逐个填报或者批量导入方式填报,支持与数据仓中已有数据进行关联匹配,提交后
归集至数据仓。
6.2.4 归集内容
数据归集内容包括实有人口信息、地址地名信息:
a) 实有人口信息包括但不限于姓名、性别、联系方式、现居住地址、户籍所在地、证件类型、证
件编号、国籍、民族、学历、政治面貌、婚姻状况、镇街编号等信息。实有人口信息见表 A.1。
b) 地址地名信息包括但不限于住所名称、省、市、区县、镇街、社区、自然村、街路巷、门牌、
小区、建筑物、楼牌、单元、楼层、户室、网格编码、楼栋编码、户室编码、地址编码等信息。
地址地名信息见表 A.2。
4
DB3301/T 0468—2024
数据清洗
6.3.1 制定清洗策略
明确清洗的目标、范围和策略,建立数据过滤策略,以清除无效数据、干扰数据、过时数据、重复
数据、不一致数据等数据,确保数据质量。
6.3.2 人口数据清洗
6.3.2.1 基本信息提取
从不同数源部门和上级部门回流的数据中提取人口基本信息,包括姓名、出生日期民族、户籍地、
居住地、文化程度、婚姻状况等。
6.3.2.2 数据清洗比对
按照GA/T 1218、GB 11643、GB/T 2261.1进行人员基本信息数据清洗比对,包括但不限于字段命名
统一、字段格式统一、数据标准统一、数据纠错、去除空白字符、全角半角转换、去除重复数据等。示
例见附录B。
6.3.2.3 数据转换合并
应包括下列内容:
a) 将多张人口数据表进行行列转换并合并为中间表;
b) 根据数据来源设置权重,结合业务时间排序,获取人口每项属性的有效的最新数据,对中间表
进行去重,形成最终表;
c) 对最终表的数据进行行列转换,实现数据合并。
6.3.3 地址数据清洗
6.3.3.1 数据清洗比对
根据数据标准进行数据清洗比对,包括但不限于地址数据纠错、去除空白字符、全角半角转换。示
例见附录B。
6.3.3.2 地址数据切片
将地名地址切片成行政区划省份代码、行政区划省份名称、行政区划地市代码、行政区划地市名称、
行政区划区县代码、行政区划区县名称、乡镇街道代码、乡镇街道名称、村(社区)代码、街路巷、门
牌号、小区独立建筑物名称、楼幢、单元、楼层、户室。示例见附录B。
6.3.3.3 经纬度提取
基于原始地名地址文本数据,通过地理编码接口,获取经纬度。基于经纬度转换为地理围栏对应的
坐标系坐标。示例见附录B。
6.3.3.4 数据入网格
通过经纬度与行政区划边界信息配装计算出地址所在网格信息。
6.3.3.5 地址数据赋码
地址地名数据编码应符合DB3301/T 0296—2022第6章的要求。
5
DB3301/T 0468—2024
6.3.4 数据关联映射
6.3.4.1 基于已有的小区/独立建筑物、楼幢、单元、户室、道路、门牌号与标准地址库建立映射,包
括以下层级:
a) 行政区划级别:从大到小依次为省、市、区县、街道(镇、乡);
b) 具体位置描述:包括道路名、门牌号、小区名、建筑物名称、楼层号、房间号等。
6.3.4.2 根据原始数据中实有人口和地址的关联关系以及原始地址与标准地址的关联关系,构建人房
关联信息表。
数据质量监督
6.4.1 监督机制
应确定数据质量监督机构或责任部门,负责监督和管理数据质量检测工作。
6.4.2 监督频率
规定数据质量监督的频率,宜定期进行监督。
6.4.3 监督内容
应包括对数据质量检测流程、数据质量指标和异常数据处理情况的监督。
6.4.4 数据质量报告
应制定数据质量报告,总结监督和评估结果,包括数据质量指标的达成情况、异常数据处理情况、
改进措施等内容。
问题数据处理
6.5.1 识别问题数据
应识别问题数据,包括但不限于格式错误、缺失值、重复数据等。
6.5.2 通知数据提供方
应结合数据质量报告结果,及时通知数据提供方问题数据描述,进一步核查和完善问题数据。
6.5.3 数据修正
数据提供方接收到问题数据后,应及时修正问题数据。
6.5.4 重新整合数据
修正后的数据通过数据治理调度工作流应重新整合到数据仓。
6.5.5 建立知识库
积累数据质量问题及处理经验,建立数据质量知识库,包括检测规则、问题描述和解决方案。
数据核查更新
6.6.1 应确保根据不同业务的更新周期建立高效及时的数据归集通道,并完善数据治理自动调度工作
流程,以保障数据的时效性。
6
DB3301/T 0468—2024
6.6.2 按照行政区划将治理完成后的最新数据分发给数据提供方,并最终下发至基层网格,进行定期
或不定期核查,当存在数据差异时及时反馈并更新数据。
7 数据应用接口
应定义接口的规范和功能,包括确定接口的输入参数、输出结果以及支持的操作类型,设计接口
的访问点和访问方式,并提供详细的接口文档。
应建立访问控制和安全机制,通过身份验证、访问令牌、访问限制等措施,保护数据的安全性和
合法使用。
应实施版本管理机制,以确保向后兼容性,并在进行重大更改时通知和支持现有的接口正常使用。
8 数据评价与改进
评价
应建立评价指标体系,包括数据的完整性、一致性、准确性和及时性:
a) 应评价数据的完整性,在传输、存储和使用数据过程中,是否有未授权方式的更改或破坏;
b) 应评价数据的一致性,数据是否遵循统一规范、统一编码和统一格式;同一数据在不同应用和
不同数据库中是否保持一致,同一数据在不同维度和不同颗粒度下是否保持一致;
c) 应评价数据的准确性,评价数据是否真实、正确,能够反映实际情况;
d) 应评价数据的及时性,数据是否在需要的时间内更新,是否能够反映最新的信息。
改进
8.2.1 改进数据治理方案,优化数据治理实施策略、方法和流程,促进数据治理体系的完善,包括:
a) 根据数据质量监督和评估结果,及时识别存在的问题和不足,制定改进措施和行动计划。
b) 指导数据治理方案的改进,优化数据治理的实施策略、方法、流程和制度;
c) 监督数据治理的改进和优化过程,为数据资源的管理和数据价值的实现提供保障。
d) 持续完善数据质量管理知识库、完善数据质量管理流程等措施,提升数据质量管理工作效率。
8.2.2 宜将问题数据修正分完成整改、确认无误和沟通解决三种:
a) 对于完成整改并归档的,实施二次数据归集,公共数据主管部门跟踪确认数据质量治理结果,
评价反馈治理成效;
b) 对于确认无误的,通知数据应用部门;
c) 对于沟通解决,数源部门短期难以解决的,与数据应用单位进行沟通协调。
7
DB3301/T 0468—2024
附 录 A
(资料性)
实有人口和地址地名信表信息
A.1 实有人口信息见表 A.1。
表A.1 实有人口信息
序号 数据元名称 字段名 数据类型 数据项长度 必填 备注
1 姓名 xm 字符 100 是 -
2 性别 xbdm 字符 2 是 0-未知的性别 1-男性 2-女性 9-未说明的性别
3 出生日期 csrq 日期 是 格式为“YYYYMMDD”
4 联系方式 lxdh 字符 20 是 -
5 现居住地址 jzd_dzmc 字符 200 是 -
6 户籍所在地 hjd_dzmc 字符 200 是 -
7 证件类型 zjlxdm 字符 10 是 1-身份证,2-护照,3-港澳台证 件,4-警官证,5-士兵证,6-军官 证,7-军队学员证,8-军队文职干 部证,9-军队离退休干部证和军队 职工证,10-外国人居留证,11-外 国人出入境证,12-外交官证,13- 领事馆证,14-海员证,15-其他证 件
8 证件编号 zjhm 字符 20 是 -
9 国籍 gjmc 字符 10 否 -
10 籍贯 jgmc 字符 200 否 -
11 民族 mzmc 字符 10 否 GB 3304
12 学历 whcd 字符 10 否 GB/T 4658
13 政治面貌 zzmm 字符 10 否 GB/T 4762
14 婚姻状况 hyzk 字符 10 否 GB/T 2261.2
15 宗教信仰 zjxy 字符 10 否 GA 214.12
16 工作单位 gzdw 字符 200 否 -
17 人口类型 rklx 字符 200 否 1-户籍人口,2-流动人口
18 特殊人群 sftsrq 字符 10 否 1-否 2-是
19 特殊人群 类型 tsrqlx 字符 50 否 各部门自行定义
8
DB3301/T 0468—2024
表B.2 实有人口表信息示例(续)
序号 数据元名称 字段名 数据类型 数据项长度 必填 备注
20 是否死亡 sfsw 字符 10 否 1-否 2-是
21 所在社区 编码 csqdm 字符 200 是 《统计用区划代码和城乡划分代码编 制规则》(国统字〔2009〕91号)
22 所在网格 编码 wgdm 字符 200 是 参考当地网格编码,网格代码前12位 为村社区编码,后3位自定义
23 镇街编号 xzjddm 字符 200 是 北山街道-001008001024039,西溪街 道-001008001024040,灵隐街道- 001008001024041,翠苑街道- 001008001024042,文新街道- 001008001024043,古荡街道- 001008001024044,转塘街道- 001008001024045,留下街道- 001008001024046,蒋村街道- 001008001024047,双浦镇- 001008001024049,三墩镇- 001008001024048
24 火化日期 hhrq 日期 格式为“YYYYMMDD”
25 死亡日期 swrq 日期 格式为“YYYYMMDD”
26 更新时间 gxsj 日期 格式为“yyyy-MM-dd HH:mm:ss”
27 创建时间 cjsj 日期 格式为“yyyy-MM-dd HH:mm:ss”
28 是否删除 sfsc 字符 20 否 -
29 主键id zjid 数值类型 32 否 -
30 工作地址 gzdz 字符 200 否 工作地址
31 镇街同步ID zjtbid 数值类型 同步镇街上传主键ID,大表存在相同 情况
32 人员状态 ryzt 字符号 20 是 正常、迁出、死亡、服兵役、出国定 居
33 就业状况 jyzk 字符 20 否 工作、失业、退休、教育
34 人户分离 状况 sfrhfl 字符 20 否 1-是 0否
A.2 地址地名信息见表 A.2。
表A.2 地址地名信息表示例
序号 数据元名称 字段名 数据类型 数据项长度 必填 备注
1 主键 id zjid 数值 32 否 -
2 住所名称 zsdz 字符 2 是 -
3 经度 jd 字符 100 是 -
4 纬度 wd 字符 100 是 -
9
DB3301/T 0468—2024
表 A.2 地址地名信息表示例(续)
序号 数据元名称 字段名 数据类型 数据项长度 必填 备注
5 楼高 lg 字符 50 否 -
6 城市 dsmc 字符 30 是 -
7 区县 qxmc 字符 20 是 -
8 镇街 xzjdmc 字符 20 是 -
9 社区 csqmc 字符 20 是 -
10 组 zrcz 字符 20 否 -
11 自然村 zrc 字符 20 否 -
12 专业区 zyq 字符 20 否 -
13 街路巷 jlx 字符 20 否 -
14 门牌 mlph 字符 20 否 -
15 小区 xqmc 字符 20 否 -
16 建筑物 jzwmc 字符 20 否 -
17 楼牌 lzmc 字符 20 否 -
18 单元 dymc 字符 20 否 -
19 楼层 lcmc 字符 20 是 -
20 户室 hsmc 字符 20 是 -
21 网格编码 wgdm 字符 50 是 -
22 楼栋编码 lzbm 字符 50 是 -
23 户室编码 hsbm 字符 50 是 -
24 地址编码 dzm 字符 10 是 -
25 创建时间 cjsj 日期 格式为“yyyy-MM-dd HH:mm:ss”
26 更新时间 gxsj 日期 格式为“yyyy-MM-dd HH:mm:ss”
27 是否有效 sfyx 字符 2 是 1-是,2-否
28 来源 sjly 字符 10 是 来源系统的业务表名
29 状态 ztmc 字符 2 是 0 无效,1 有效
10
DB3301/T 0468—2024
附 录 B
(资料性)
数据清洗示例
数据清洗示例见表B.1。
表B.1 数据清洗示例
序号 清洗方式 清洗前数据 清洗后数据
1 字段命名统一 “性别”字段信息为“xingbie” “sex” “gender” 将“性别”字段信息标准化清洗为“xbdm”;
2 字段格式统一 针对出生日期、死亡日期包含string、datetime 等不同字段格式; 针对门诊时间、办件时间、办结时间等具体行为 的日期内容包含string、datetime等不同字段 格式; 出生日期、死亡日期统一标准化清洗为string 字段格式; 针对门诊时间、办件时间、办结时间等具体行为 的日期内容标准化清洗为datetime字段格式。
3 数据标准统一 针对出生日期、死亡日期包含YYYYMMDD、YYYY- MM-DD等不同表达方式; 针对门诊时间包含“yyyy-MM-dd HH:mm:ss” “yyyy-MM-dd HH:mm:ss”等不同表达方式; 对于性别字段,来源数据定义可能是:“M”表 示男,“F”表示女;也可能是:“01”表示男, “02”表示女; 对15位的身份证号码“330106400728181”。 针对出生日期、死亡日期包含YYYYMMDD; 针 对 门 诊 时 间 标 准 化 清 洗 为 “ yyyy-MM-dd HH:mm:ss”。 对于性别字段的数据值统一标准化清洗为“01” 表示男,“02”表示女; 标 准 化 清 洗 为 18 位 身 份 证 号 码 “33010619400728181X”
4 数据纠错 杭州市西湖区保淑路2号; 杭州西湖古墩路300号中兴公寓; 杭州市西湖区文二西路780号@#%西溪银座D座 二楼。 杭州市西湖区保俶路2号; 杭州市西湖区古墩路300号中兴公寓; 杭州市西湖区文二西路780号西溪银座D座二 楼。
5 去除空白字符 杭州市 西湖区 求是村 53幢1单元501室,含空 白字符; 年龄字段的值为“1 2”,含空白字符。 杭州市西湖区求是村53幢1单元501室; 将“1 2”字段信息标准化清洗为“12”。
6 全角半角转换 杭州市西湖区求是村53幢1单元501室; 英文名字段的值为“Aaron”,为全角。 杭州市西湖区求是村53幢1单元501室; 英文名字段的值标准化清洗为“Aaron”,为半 角。
11
DB3301/T 0468—2024
表B.1 数据清洗示例(续)
序号 清洗方式 清洗前数据 清洗后数据
7 地址切片 杭州市西湖区求是村53幢1单元501室 行政区划省份代码:330000, 行政区划省份名称:浙江省, 行政区划地市代码:330100, 行政区划地市名称:杭州市, 行政区划区县代码:330106, 行政区划区县名称:西湖区, 乡镇街道代码:330106012000, 乡镇街道名称:灵隐街道, 村社区代码:330106012005, 村社区名称:浙大求是社区, 小区独立建筑物名称:浙大求是村, 街路巷:浙大路, 门楼牌号:18-1号
8 经纬度提取 杭州市西湖区求是村53幢1单元501室 高 德 gcj02 坐 标 系 经 纬 度 : 120.126971 , 30.261816。 cgs2000坐标系经纬度:120.1221973252151, 30.26405191281163。
12
DB3301/T 0468—2024
参 考 文 献
[1] GB/T 34960.5—2018 信息技术服务 治理 第5部分:数据治理规范
[2] DB33/T 2350—2022 数字化改革术语定义
[3] 《统计用区划代码和城乡划分代码编制规则》(国统字〔2009〕91号)
13