
ICS 11.020
CCS C 05
团
体 标 准
T/CRHA 057—2024
————————————————————————————————
————————
基于中国人群的慢性皮肤病精准用药数
据库建设规范
Specifications for database construction of a Chinese population precision
medication for chronic dermatosis
2024-06-25 发布
2024-06-30 实施
中国研究型医院学会 发 布
T/CRHA 057—2024
目
次
前言 .............................................................................II
1 范围 ........................................................................... 1
2 规范性引用文件 ................................................................. 1
3 术语和定义 ..................................................................... 1
4 缩略语 ......................................................................... 1
5 科研及临床数据规范 ............................................................. 2
6 科研及临床数据治理要求 ......................................................... 3
7 科研及临床数据储存管理 ......................................................... 7
8 科研及临床数据中心服务要求 ..................................................... 8
9 服务安全要求 .................................................................. 11
I
T/CRHA 057—2024
前
言
本文件按照 GB/T 1.1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规
则》的规定起草。
本文件由中国研究型医院学会医疗质量管理与评价专业委员会提出。
本文件由中国研究型医院学会归口。
本文件起草单位:中日友好医院、中国人民解放军总医院、北京大学国家药品医疗器械
监管科学研究院、北京医院、南昌大学第一附属医院。
本文件主要起草人:崔勇、左先波、刘晓、杜雯雯、许静凯、王晓星、张丹、秦伟、宋
雪骄、盛宇俊、薛珂、李承旭、司超增、王小宁、侯艳、金鹏飞、张伟、胡锦芳。
II
T/CRHA 057—2024
基于中国人群的慢性皮肤病精准用药数据库建设规范
1
范围
本文件规定了基于中国人群慢性皮肤病精准用药数据库的数据收集、数据治理要求、数
据储存和对外服务等内容。
本文件适用于医疗机构、第三方实验室对慢性皮肤病的临床研究、科研、常规检测等项
目进行数据库建设。
本文件所指的慢性皮肤病包括:银屑病、白癜风、特应性皮炎、系统性红斑狼疮、自身
免疫性疱病、大疱性皮肤病、痤疮、慢性荨麻疹、硬皮病、化脓性汗腺炎、雄激素脱发、瘢
痕疙瘩及皮肤非黑色素肿瘤(日光性角化病、皮肤鳞状细胞癌、基底细胞癌)等。
2
规范性引用文件
下列文件中的内容通过本文件的规范性引用而成为本文件必不可少的条款。凡是注日期
的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括
所有的修改单)适用于本文件。
WS/T 303—2023 卫生健康信息数据元标准化规则
WS/T 304—2023 卫生健康信息数据模式描述指南
WS/T 305—2023 卫生健康信息数据集元数据标准
WS/T 306—2023 卫生健康信息数据集分类及编码规则
WS/T 500(所有部分) 电子病历共享文档规范
T/GZBC 37—2020 医疗机构数据治理规范
《中华人民共和国个人信息保护法》
《中华人民共和国数据安全法》
3
术语和定义
本文件没有术语和定义。
4
缩略语
下列缩略语适用于本文件。
CSV:逗号分隔值(comma-separated values)
EMRs:电子病历系统(electronic medical record system)
HIS: 医院管理信息系统(hospital information system)
LIS:检验信息系统(laboratory information system)
RIS:放射科信息管理系统(radiology information system)
JSON:对象简谱(JavaScript object notation)
PACs:影像归档与通讯系统(picture archiving and communication systems)
XSL:可扩展样式语言(eXtensible stylesheet language)
XML:可扩展标记语言(eXtensible markup language)
1
T/CRHA 052—2021
5
科研及临床数据规范
5.1
数据资源规划
建设科研数据中心,医疗机构应首先完成数据资源的规划工作,通过资源规划明确科研
数据中心拟收集数据的主要来源业务、数据范围、数据项目、数据类型和采集频度,数据资
源规划应满足学术和伦理要求,科研数据中心的数据来源可以包括:医疗业务数据和非医疗
业务数据。
5.2
医疗业务数据来源
医疗业务数据是指患者在诊治活动中所产生的过程性记录数据,数据范围包括但不限于:
医嘱、检查报告、检验报告、病历等。医疗业务数据主要由医院信息系统产生和管理,这些
系统包括但不限于 HIS、 EMRs、LIS、RIS、手术麻醉系统、ICU 管理系统、体检系统、
随访系统等。
5.3
其他医疗业务数据来源
其他医疗业务数据是指通过非临床业务系统产生的可用于研究的数据。其他医疗业务数
据来源包括但不限于:生物样本信息、生物组学数据、实验分析数据、临床研究数据、临床
试验数据、流行病调查数据、预防免疫数据、环境因素及其他相关数据、国内外公开权威数
据库数据、外部登记数据等。
5.4
数据标准化
5.4.1 原则
科研数据中心医学数据应遵循统一的数据标准并优先采用国家、卫生行业已经制定的相
关数据标准作为基准,对非标准数据进行转换处理。若没有相应的国家或卫生行业数据标准
可以引用,应按照国家卫生信息标准制定的有关要求完成数据标准制定工作。
5.4.2 通用科研数据标准
对于医疗机构的主要业务断面和相关数据,应符合《个人信息保护法》和《数据安全法》
有关规定。
5.4.3 未标准数据的标准化
对于国家或者卫生行业尚未制定标准的数据,应按照 WS/T 303—2023、 WS/T
304—2023、WS/T 305—2023、WS/T 306—2023 的要求形成标准化数据元和数据集。
5.5
数据分类
对慢性皮肤病精准用药数据库进行分类对于有效组织和访问数据至关重要。将按照如下方
式进行数据库分类:
1)疾病类别:根据所包含的慢性皮肤病将数据库分为几大类。每个疾病类别都应包括有精
准药物干预的特定慢性皮肤病。例如,类别可包括:银屑病、白癜风、特应性皮炎、系统性
红斑狼疮、自身免疫性疱病、大疱性皮肤病、痤疮、慢性荨麻疹、硬皮病、化脓性汗腺炎、
雄激素脱发、瘢痕疙瘩及皮肤非黑色素肿瘤(日光性角化病、皮肤鳞状细胞癌、基底细胞癌)
等。
2)药物类型:根据使用的精准药物类型在每个疾病类别中创建子类别。其中可包括抗炎症
类药物、抗生素类与抗病毒类药物、止痒阵痛类药物、激素类药物、光疗法、生物制剂、免疫
抑制剂等类别。
3)患者人口统计数据:根据年龄组、性别、种族、地理位置、社会经济状况和合并症等患
2
T/CRHA 057—2024
者人口统计学特征对数据库进行分类。
4)治疗结果:创建类别,捕捉与精准药物干预相关的治疗结果。可包括药物反应率、不良
反应、疾病进展、生活质量改善和长期结果等类别。
5)基因信息:如果数据库中包含基因数据,则应根据基因标记、突变、基因变异以及与精
准医疗干预相关的药物基因组数据对信息进行分类。
6)临床试验和研究:按与慢性皮肤病精准医疗相关的临床试验、研究调查和循证指南分类。
7)不良事件和药物相互作用:包括记录与精准用药相关的不良事件、药物相互作用和药物
相关并发症的类别。
8)数据来源和参考文献:根据原始数据来源对数据库条目进行分类,包括电子健康记录、
患者登记、临床数据库、生物医学文献和专家建议。每个条目都应注明信息来源,以提高透明
度和可信度。
9)用户友好界面:设计一个用户友好型界面,便于在数据库中进行导航和搜索。采用筛选
器、标签和关键词,以便于访问特定类别和数据子集。
10)定期更新和维护:制定定期更新、维护和审查分类方案的协议,以确保新数据得到适
当分类,数据库保持有序和最新。
6
科研及临床数据治理要求
科研数据治理应符合 T/GZBC 37—2020 的相关要求。
6.1 治理范围
科研数据中心的数据治理范围应包括医疗机构中可用于临床和转化研究的全部电子化
信息,按照数据产生的场景来划分,可以分为内部数据和外部数据两类。
6.1.1 内部数据
由医疗机构内部的工作系统所产生的电子化数据,包括但不限于:医院内的电子病历系
统(EMRs)、检验信息系统(LIS)、医学影像管理系统(PACs)、手术麻醉系统、生物
样本管理系统等产生的相关记录,宜根据需求定期地、重复地进行治理。
6.1.2 外部数据
来自医疗机构之外的电子化数据,包括但不限于:外院数据、外检数据、公共数据等,
宜通过特定的安全传输方式进行数据的归集,在此基础上根据科研需求定期地、重复地进行
治理。
6.2 治理方法
6.2.1 治理过程
在整个数据治理过程中,应针对不同时期、不同类型的数据特点,采取不同的方法进行
治理。
治理过程应至少包括 5 个核心步骤:数据收集、数据清洗、后结构化处理、数据归整、
数据校验。并在各个过程均有管理与监控工具支持。
6.2.2 数据收集
6.2.2.1 内部数据收集
6.2.2.1.1 直接收集
从系统直接收集科研数据,宜采用定时抽取方式获取有关数据,有条件的情况下建议使
用备份数据进行收集。根据生产系统的实际情况,科研数据中心可以使用关系型数据库原表
(或关系型数据库视图)或者其他通用数据接口方式进行数据收集。
3
T/CRHA 052—2021
6.2.2.1.2 集成平台收集
应根据科研数据需求与数据来源分布,在集成平台的信息交换协议框架下,建立数据收
集规则,利用集成平台实现相关数据的及时收集。
6.2.2.1.3 数据中心收集
对于已经建立全量级医院数据中心的机构,科研数据中心宜直接从数据中心获取相关数
据。
6.2.2.2 外部数据收集
6.2.2.2.1 电子交换
对于来自外部的电子化数据,在网络、安全条件许可情况下,可以采取基于电子数据交
换协议的收集方式。
6.2.2.2.2 数据导入
科研数据中心应支持通用电子数据文件的导入,如 Excel、DBF、CSV 等。
6.2.3 数据清洗
科研数据中心对收集到的数据,应首先进行数据清洗工作。科研数据中心应提供灵活的
数据清洗规则定义能力,这些规则包括但不限于:数据映射、缺失值处理、格式验证、逻辑
验证等。
6.2.4 后结构化处理
科研数据中心应具备针对非结构化电子记录的结构化处理能力,将医学语境下基于自然
语言描述的医疗记录转化为结构化数据。后结构化的准确率和召回率应满足使用要求。
6.2.5 数据归整
针对清洗和结构化处理的数据,科研数据中心应基于语义进行归一、分类、索引整理,
建立元数据,以纳入对象个体为单位实现数据序列化,通过对象的唯一性标识,实现多源数
据的逻辑整合,这些数据包括但不限于:临床业务数据、实验分析数据、外部数据等。
6.2.6 数据校验
科研数据中心应在数据治理过程的各主要阶段进行必要的数据校验,保证科研数据的完
整性。
6.2.7 数据脱敏
科研数据中心应在保证数据科研使用最大价值和可用性的前提下,采取适宜的技术方法
对收集的科研数据进行脱敏处理,符合 T/GZBC 37—2020 的要求。
6.2.8 数据注释
科研数据中心应提供数据二次注释能力,通过定义符合科研要求的数据项/词性,采用
人工标注或者其他标注方式,对原始病历文书、检验检查等源数据进行相应数据项/词性的
标注,进一步扩充科研数据中心内容。
6.2.9 人工干预
慢性皮肤病精准用药数据库中的人工干预是指人类专家(如医疗保健提供者、数据分析
师、研究人员和管理员)积极参与管理、维护和使用数据库的各个方面。人工干预是对技术
工具和自动化的补充,它提供关键的输入、专业知识和决策能力,以确保数据库的准确性、
相关性和有效性。科研数据中心应提供人工干预数据合格判定的功能,在依据系统判定数据
合格与否的基础上,人为可干预判定结果,标定人为干预合格数据的标志,避免特例数据在
治理过程中错误的判定。
人工干预慢性皮肤病精准用药数据库的主要方面包括:
1)数据验证:人工专家对输入数据库的数据的准确性、完整性和一致性进行验证。这
包括审查、核实和更正数据条目,以确保数据的质量和可靠性。
2)数据清理:人工负责通过数据清理流程识别和处理数据库中的错误、重复、不一致
4
T/CRHA 057—2024
和异常值。这有助于保持数据的完整性和相关性,以便进行分析和决策。
3)质量控制:人工专家实施质量控制措施,监控数据质量、标准遵守情况和数据库整
体性能。定期进行审核、检查和审查,以确保数据的完整性和符合最佳实践。
4)数据解读:人类专家对数据库中的数据进行解读和分析,以汲取真知灼见,做出明
智决策,推动慢性皮肤病精准医疗的循证实践。他们的专业知识可加强对数据库信息的理解
和应用。
5)用户反馈和支持:人工专家为用户提供支持、解决咨询问题并采纳用户反馈意见,
以提升用户体验和对数据库的满意度。他们在引导数据库用户、满足其需求和偏好方面发挥
着至关重要的作用。
6.2.10 质量保证
针对核心数据治理过程,科研数据中心应建立有效的质量保证体系,建立可信的证据链,
并通过客观的质量指标反映数据治理过程和结果。
6.3 治理评价
6.3.1 建立评价体系
科研数据中心宜建立一套可评价的体系,从数据的及时性、完整性、准确性、一致性、
关联性、溯源性等 6 个维度对数据治理过程进行评价。
6.3.2 评价维度要求
6.3.2.1 及时性
业务数据产生的时间(以数据记录时间或业务时间为准)与数据收集的时间间隔,应满
足一定的时间要求。该评价主要是针对数据治理中数据收集的过程。
6.3.2.2 完整性
科研数据中心应制定数据完整性相关质量指标,通过业务标准来识别业务关键数据的完
整性,并根据评价情况,对数据质量过程进行持续优化和调整。
6.3.2.3 准确性
科研数据中心应制定数据准确性相关质量指标,结合业务规则和数据标准来识别数据的
准确程度,并根据评价情况,对数据治理过程进行持续优化和调整。
6.3.2.4 一致性
科研数据中心应制定数据一致性相关质量指标,结合业务规则和数据标准来识别数据的
一致性程度,并根据评价情况,对数据治理过程进行持续优化和调整。
6.3.2.5 关联性
科研数据中心应制定数据关联性相关质量指标,结合数据库管理范式要求识别数据的关
联性水平,并根据评价情况,对数据治理过程进行持续优化和调整。
6.3.2.6 溯源性
对于每项科研数据,科研数据中心应提供溯源支持,再现相关数据的治理过程。
6.4 数据的质量控制
对慢性皮肤病精准用药数据库进行质量控制对于确保数据库中的数据准确、可靠和最新
至关重要。以下是实施质量控制的一些关键步骤和策略:
1)数据验证:定期验证输入数据库的数据,确保准确性和一致性。这包括与外部来源
的数据进行交叉比对、核实病人信息以及确认药物详情。
2)数据标准化:为数据库中的数据录入、格式化和分类建立标准化协议。统一的数据
标准将有助于对不同慢性皮肤病进行数据分析和比较。
3)数据清理:定期进行数据清理,找出并纠正数据库中的错误、重复、不一致和不完
5
T/CRHA 052—2021
整记录。这将有助于保持数据的完整性,提高数据库的整体质量。
4)审查数据来源:核实数据库中的数据来源,确保可信度和可靠性。数据来源可包括
电子健康记录、临床试验数据、研究调查和患者登记。
5)监测数据更新:定期根据新信息、研究成果和慢性皮肤病精准用药指南的变化更新
数据库。建立持续的数据维护和审查机制。
6)安全和保密:实施严格的安全措施,保护数据库中存储的患者数据的隐私性和保密
性。遵守数据保护法规和最佳实践,保护敏感信息。
7)用户培训和访问控制:为数据库用户提供数据输入协议、质量控制程序和数据库管
理最佳做法方面的培训。实施访问控制措施,限制未经授权访问数据库。
8)审计跟踪:维护审计跟踪以跟踪对数据库所做的更改,包括数据输入、修改和删除。
审计跟踪有助于识别数据库中的错误、不一致和未经授权的操作。
9)质量保证协议:制定并实施质量保证协议,概述数据验证、清理、监控和更新的流
程。定期审查和完善这些规程,以确保持续的质量控制。
10)与专家合作:寻求医疗服务提供者、研究人员、数据分析师以及精准医疗领域其他
专家的意见和合作,以验证数据、解释研究结果并确保数据库的质量和相关性。
6.5 数据库效力评价
评估慢性皮肤病精准用药数据库的有效性对于评估其对医疗决策、患者疗效和研究进展
的影响至关重要。以下是评估数据库有效性时需要的关键步骤:
1)确定评估指标:制定明确、可衡量的指标来评估数据库的有效性。这些指标可包括
数据准确性、数据完整性、用户满意度、临床结果、研究影响、成本效益和可用性。
2)数据质量评估:彻底评估数据库内的数据质量,包括准确性、完整性、一致性和可
靠性。使用数据验证技术、数据清理流程和用户反馈来确保数据的完整性。
3)用户反馈和满意度:收集数据库用户(包括医疗服务提供者、研究人员和管理人员)
的反馈意见,评估他们对数据库的满意度。评估用户体验、数据访问的便捷性、信息的实用
性以及改进建议。
4)临床结果分析:分析临床结果和病人数据,以确定数据库对医疗决策和病人护理的
影响。评估使用数据库后在治疗方法、用药依从性、疾病管理和患者疗效方面的变化。
5)研究影响:评估数据库对慢性皮肤病精准医学研究进展的影响。评估利用数据库数
据发表的论文、引用、合作和研究的数量。衡量数据库对科学知识和临床实践的贡献。
6)成本效益分析:进行成本效益分析,评估数据库对医疗服务和患者治疗效果的经济
影响。评估使用数据库进行精准用药干预所节省的成本、资源利用率和产生的价值。
7)比较分析:将慢性皮肤病精准用药数据库的结果和性能与其他类似数据库或标准护
理方法进行比较。根据比较分析确定优势、局限性和需要改进的地方。
8)纵向评估:实施纵向评估方法,跟踪数据库使用、数据质量、用户参与和成果随时
间推移而发生的变化。监测趋势、模式和反馈,为数据库的持续改进和更新提供信息。
9)利益相关者的参与:让包括医疗服务提供者、研究人员、政策制定者、患者和行业
合作伙伴在内的利益相关者参与评估过程。收集利益相关者的意见、见解和建议,以了解数
据库对不同医疗保健领域的影响。
10)持续改进:利用评估结果为数据库的持续改进措施提供信息。确定改进机会,满足
用户需求和偏好,并实施更改,以优化数据库的有效性和可用性。
通过遵循这些步骤并对慢性皮肤病精准用药数据库进行全面评估,利益相关者可以评估
其影响,确定需要改进的领域,并利用其潜力推进精准医疗干预措施,改善慢性皮肤病患者
的治疗效果。
6
T/CRHA 057—2024
6.6 数据库管理分类
针对数据库管理的分类模式,可以采取一下方式:
1)数据类别:根据疾病类型、药物类别、患者人口统计数据、治疗结果、遗传信息、
不良事件和研究对数据库中的数据进行分类。这有助于组织信息,提高访问和分析效率。
)用户角色和访问级别:定义数据库中用户角色和访问级别的类别,包括管理员、医疗
服务提供者、研究人员和其他利益相关者。根据用户的角色和职责建立权限和限制。
3)数据录入和验证流程:对数据库中的数据输入和验证流程进行分类,以确保输入和
维护的信息准确、一致且可靠。概述数据管理的协议、指南和质量控制措施。
4)质量保证类别:确定质量保证流程的类别,包括数据质量检查、审计、数据清理程
序和定期审查。确保整个数据库保持数据的完整性并遵守标准。
5)安全性和保密性:对为保护数据库中存储的患者数据的机密性和隐私而实施的安全
措施和协议进行分类。确定加密、访问控制、身份验证和数据保护机制的类别。
6)数据维护和更新:对数据维护任务进行分类,包括定期更新、数据刷新、数据归档
和版本控制。建立数据源验证、数据同步和审计跟踪管理类别。
7)培训和文档:对与数据库使用、数据录入指南、质量控制程序和用户支持资源有关
的培训材料和文档进行分类。提供分类资源,支持用户有效使用数据库。
8)协作与交流:确定协作工具、沟通渠道和反馈机制的类别,以促进数据库用户、利
益相关者和管理员之间的互动。鼓励数据库管理框架内的合作、知识共享和最佳实践。
9)评估和监测:为评估指标、监测机制和绩效指标设立类别,以评估数据库的有效性
和影响。定期评估用户反馈、数据质量、系统性能和成果,以推动持续改进。
10)战略规划和发展:对数据库的战略规划举措、开发项目和增强优先事项进行分类。
确定创新、可扩展性、适应性和面向未来战略的类别,以确保数据库满足不断变化的需求和
挑战。
通过在这些关键领域对慢性皮肤病精准用药数据库进行分类管理,利益相关者可以有效
地组织、管理和优化数据库,以支持精准医疗干预、改善患者护理并推动慢性皮肤病管理的
进步。
7
科研及临床数据储存管理
7.1 概述
科研数据中心的数据存储应采取分层模式,包括全量库和主题库两个层次。数据存储应
保证入库患者标识的唯一性。一位患者的所有数据存储应按照临床事件进行组织,这些事件
包括但不限于:预约、挂号、接诊、入院登记、检验检查、手术治疗、药物治疗、出院、随
访等。一位患者的数据存储应真实反应该患者遭遇临床事件的先后顺序。科研数据中心应提
供配置接口用以定义临床事件以及每个临床事件所包括的数据内容,并定义相关数据的保密
性和隐私性。
7.2 全量库存储
科研数据中心的全量库应保存机构数据资源规划中约定的全部数据,包括但不限于:
HIS、LIS、EMRs、 PACs、生物样本信息、生物数据等。全量库采用的数据管理系统应支
持结构化、非结构化数据的混合处理,并满足快速数据存取和数据并发处理要求。
7.3 主题库存储
7
T/CRHA 052—2021
科研数据中心的主题库用于保存授权研究者根据入选/排除排条件从全量库筛选所得的
患者以及预先指定的数据变量和数据值。主题库还应提供其保存数据的追溯性。主题库采用
的数据管理系统宜便于进行数据统计和分析处理。
7.4 数据加密
科研数据中心应对数据存储模型约定需要保密的数据进行加密处理,加密技术可采用专
用加密芯片和设备的硬加密方式,也可采用 SM3、SM4 等软加密技术。所有保存的数据应
为非明文方式。
8
科研及临床数据中心服务要求
8.1 服务流程规范
科研数据中心主要提供六种不同的服务方式:
a)
数据汇集,是以不同的分类将全量库进行可视化展示,分类可包括:疾病诊断、使
用药品、检验指标等;同时,可以提供数据引用申请、评估、审批及数据授权等服务。
b)
数据查询,是基于科研数据中心的标准变量及值域,允许数据使用方自行定义数据
筛选条件以及条件之间的逻辑关系,从全量库获取目标数据的过程。
c)
数据检视,是针对查询所得的目标数据,数据使用方利用科研数据中心提供的多种
数据可视化方法,展示目标数据和目标数据的分析过程。
d)
数据分析,是针对特定主体库,按照统计学方法对所选取的研究对象及其相关暴露、
和结局进行统计分析并形成结论和报告的过程,统计方法至少包括比较均值分析、非参检验、
回归分析、相关性分析等。
e)
数据导出,是根据约定的文件格式要求,如 CSV、Excel 等,自动生成特定数据文
件的过程,这些文件能够被第三方统计分析软件所引用。
f)
数据交换,是按照特定的数据接口标准进行数据交换的过程,包括外部数据的引入
和对外数据的提供。
8.2
数据中台服务流程
数据中台服务基本流程如图 1 所示。
图1 数据中台服务流程示意图
8
T/CRHA 057—2024
科研数据中心为数据使用方提供基于全量库的数据分类浏览和导航服务,这些服务便于
数据使用方查找和定位目标数据集。 针对目标数据集,数据使用方检索可用的数据资源,
向数据审批方提交数据使用申请。数据审批方接收到使用申请后,评估并审批数据使用申请,
审批结果返回科研数据中心。获得审批通过后,数据使用方获得授权,允许将目标数据从全
量库到主体库,用于后续研究工作。
8.3
数据查询服务流程
数据查询服务流程如图 2 所示。
图2 数据查询服务流程示意图
数据使用方采用科研数据中心的标准变量及值域构造数据查询条件,并将条件提交科研
数据中心进行处理。科研数据中心根据数据使用方提交的查询条件从目标数据库中查找数据
使用方权限许可范围下的数据内容,并将查询结果反馈给数据使用方。
8.4
数据检视服务流程
数据检视服务流程如图 3 所示。
图3 数据检视服务流程示意图
9
T/CRHA 052—2021
科研数据中心为数据使用方提供其权限允许范围内的目标数据集列表。数据使用方选择
目标数据集及目标变量,并选择科研数据中心配套的数据检视工具,然后向科研数据中心提
交数据检视请求。科研数据中心根据数据使用方的请求完成指定数据的处理并图示数据处理
结果。
8.5
数据分析服务流程
数据分析服务流程如图 4 所示。
图 4 数据分析服务流程示意图
科研数据中心为数据使用方提供其权限允许范围内的目标数据集列表(多为主题库中的
主题数据集)。数据使用方基于科研数据中心的标准化数据和值域构造入排条件,并提交科
研数据中心进行数据筛选。科研数据中心根据入排条件向数据使用方返回筛选结果,数据使
用方根据其研究方法以及其指定统计算法的要求,在筛选结果中进行对象分组和变量挑选,
科研数据支持的统计分析方法包括但不限于:比较均值分析、非参检验、回归分析、相关性
分析等;科研数据中心根据数据使用方提交的分析请求,完成分析计算,并将结果反馈给数
据使用方。
8.6
数据导出服务流程
数据导出服务流程如图 5 所示。
图 5 数据导出服务流程示意图
10
T/CRHA 057—2024
科研数据中心为数据使用方提供其权限允许范围内的目标数据集列表(多为主题库中的
主题数据集)。数据使用方从目标数据集中选择拟导出的数据变量以及数据导出格式,包括
但不限于:CSV、Excel。科研数据中心按照要求,对目标数据进行转换处理,输出符合数据
使用方要求的数据文件。
8.7
数据交换服务流程
数据交换服务流程如图 6 所示。
图 6 数据交换服务流程示意图
数据提供方按照数据接口标准处理需要提交的数据,同时科研数据中心也按数据接口标
准输出数据。 数据提供方应遵循 ETL 技术(数据仓库技术)对数据进行抽取、清洗、校对
等,将数据提交到科研数据中心。
9
服务安全要求
9.1
隐私要求
数据服务应当具备数据隐私和脱敏配置功能,即科研数据中心需要后台有配置各数据项
的隐私功能,对已设置为隐私的数据项,可以在对应的服务中进行脱敏处理。
9.2
加密要求
数据服务应当具备传输过程加密配置功能,即科研数据中心需要后台有配置是否对传输
过程进行加密处理的功能,对已设置为加密处理的服务,在该服务的传输过程中对交互数据
进行加密处理。
9.3
访问要求
数据服务应当具备访问控制与监管的功能,做到对每个接入数据服务的系统和数据使用
方都进行登记与注册;只有注册通过的系统和数据使用方才能提供数据服务,并记录每次访
问的情况。
9.4
权限要求
数据服务需要具备权限配置界面,可以对访问服务的系统和数据使用方进行必要权限配
置管理。
11
T/CRHA 052—2021
9.5
数据中台服务
9.5.1
数据中台应仅允许在科研数据中心注册的数据使用方浏览和使用其保存的数据;
9.5.2
数据中台应以“最小数据集”为基础,对全量库保存的科研数据进行分类、分层展
示,能够让数据访问者了解全量库所保存数据的基本时空分布特征,包括但不限于年龄、性
别、症状、诊断、主要用药、结果等,以及所保存数据变量及其值域范围;
9.5.3
数据中台能够为数据使用方提供数据使用申请服务,要求数据使用方按照数据使用
管理规定提交相应的申请材料以及申请的数据范围,当数据使用方提交使用申请后,应能够
按照预定的数据审批路径,将申请发给相应的数据审批方;
9.5.4
数据中台为数据审批方提供数据使用申请浏览、提醒和审核确认功能,不管是否同
意使用申请,都应及时将审批结果反馈给数据使用方;对于获得审批的申请,数据使用方可
以将相关数据到主题库,建立自己的研究数据集;
9.5.5
应提供每次数据申请及授权的操作日志记录,记录的内容至少有:展示授权数据、
数据审批方、数据使用方、备注信息、申请时间、处理时间及数据状态。
9.6
数据查询服务
数据查询服务至少应提供以下服务功能:
科研数据中心应允许数据使用方在全量库以及其授权获得的主题库进行查询;
科研数据中心应支持数据使用方使用目标库的数据变量以及相应值域,自由构造单项数
据查询条件以及组合条件,查询条件包括但不限于:等于、大于、小于、大于等于、小于等
于、包含、不包含等;组合关系包括但不限于:和、或等;
科研数据中心根据数据使用方提交的查询条件,从目标数据库提取符合条件要求的数据,
并以直观方式展现给数据使用方;
科研数据中心应允许数据使用方保存数据查询方案,该方案仅在数据使用方的用户名下
可见。
9.7 数据检视服务
数据检视服务至少应提供以下服务功能:
科研数据中心应内置数据检视工具,包括但限于:柱状图、折线图、环状图、横向条形
图、三间分布等;
数据使用方自由选择可用的检视工具,并根据检视工具要求,从目标数据集中挑选数据
变量,提交检视请求;
科研数据中心应按照数据使用方的请求完成指定数据的检视处理,并直观反馈给数据使
用方;
数据使用方可以保存数据检视方案,并将检视结果输出为指定格式的文件。
9.8 数据分析服务
数据分析服务至少应提供以下服务功能:
科研数据中心应内嵌医学研究工作中经常使用的统计分析模型及算法,包括但不限于:
均值分析、非参检验、回归分析、相关性分析、决策树,主成分分析等;
针对特定的主题库,科研数据中心应允许数据使用方自主构造研究对象的入排条件,挑