
ICS35.240.50 CCS L 67
GB
中华人民共和国国家标准
GB/T42201—2022
智能制造
工业大数据时间序列数据采集与存储管理
Intelligent manufacturing-
Time series data acquisition and storage management for industrial big data
2023-07-01实施
2022-12-30发布
国家市场监督管理总局
国家标准化管理委员会 发布
GB/T42201—2022
目 次
前言 1 范围 2 规范性引用文件 3 术语和定义
缩略语 5 时间序列数据采集 5.1 采集流程 5.2 采集系统功能 6时间序列数据存储管理 6.1存储管理流程 6.2存储管理系统功能参考文献.
X
GB/T 42201—2022
前言
本文件按照GB/T1.1一2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由中华人民共和国工业和信息化部提出并归口。 本文件起草单位:清华大学、中国电子技术标准化研究院、华为技术有限公司、阿里云计算有限公
司、腾讯云计算(北京)有限责任公司、美林数据技术股份有限公司、浪潮电子信息产业股份有限公司、联想(北京)有限公司、北京金风科创风电设备有限公司、石化盈科信息技术有限责任公司、北京工业大学、 浪潮软件科技有限公司、北京集信星软件技术有限公司、星环信息科技(上海)股份有限公司、上海麦杰科技股份有限公司、中山大学、天津大学、西安电子科技大学、北京邮电大学、江苏赛西科技发展有限公司、深圳赛西信息技术有限公司。
本文件主要起草人:王建民、王晨、黄向东、张群、卫凤林、尹卓、王为中、宋秉华、关涛、王洁萍、 李晓慧、程宏斌、于辰涛、李瑛、万海、沈玉龙、杨辉华、雷建军、潘兆庆、彭勃、沈丽丽、张星星、周钢、邓乔、 刘源、索寒生、韩红桂、徐哲、曹幼林、赵亮、杨永军、杨洪山。
GB/T42201—2022
智能制造
工业大数据时间序列数据采集与存储管理
1范围
本文件规定了工业大数据时间序列数据采集与存储管理的流程和系统功能。 本文件适用于工业大数据时间序列数据采集与存储管理系统的研究、开发、测试和应用,
规范性引用文件
2
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
工业大数据 industrial big data 在工业活动过程中产生的具有体量巨大、来源多样、生成极快、多变等特征并且难以用传统数据体
系结构有效处理的包含大量数据集的数据,
注:一般分成三类,即企业信息化数据、工业物联网数据以及外部跨界数据。其中,企业信息化和工业物联网中机
器产生的海量时间序列数据是工业数据规模变大的主要来源[来源:GB/T41778—20223.21]
3.2
采集系统 acquisition system 采集和生成时间序列数据的系统。 注:包括系统、子系统、模块及组件等。
3.3
存储管理系统 storage management system 存储和管理时间序列数据的系统。 注:包括系统、子系统、模块及组件等。
3.4
时间序列标识 time series identifier 在一个系统中表征特定时间序列数据的唯一标识符。
3.5
时间戳 找timestamp 对时间和其他待签名数据进行签名得到的,用于表明数据时间属性的数据。 [来源:GB/T25069—2022,3.541]
3.6
时间序列数据 time series data 在多个时间点观察或测量的并按照时间排列的一组数据,
1
GB/T42201—2022
[来源:GB/T41778—2022,3.52]
3.7
时间序列数据元数据 metadata for time series data 描述时间序列数据类型、格式等属性信息的数据。
4缩略语
下列缩略语适用于本文件。 ID:身份标识(identification)
5 时间序列数据采集
5.1 采集流程
时间序列数据的采集流程包含采集、预处理和数据传输三个阶段,见图1。其中,采集和数据传输
应至少采用实时、近实时和文件批处理等三种方式中的一种。
采集开始 - 采集
预处理
数据传输
采集结束
图1 时间序列数据采集流程
5.2 采集系统功能 5.2.1 时间序列数据采集功能
采集系统应具有以下时间序列数据采集功能 a) 能设置系统时间; b) 具有通过网络传输数据的能力,支持本地缓存数据和传出数据,支持按照存储容量或存储时长
等策略设置本地缓存和持久存储,支持周期性滚动存储;能设置配置信息,包括设备唯一编号、可支持采集的时间序列数据、采样间隔等,支持配置参数
c)
本地设置和云端下发以及设置网络地址、端口号、权限验证、传输时间间隔、域名和备用网络地址等;
d) 能支持信息敏感设备数字证书的导人和认证; e) 采集系统上部署的采集程序具备以下功能:
2
GB/T 42201—2022
1)按照采集系统配置设置信息进行数据采集; 2) 数据采集支持整型、浮点型、布尔型、字符串型数据类型和用户自定义数据类型; 3) 所支持的本地缓存数据的功能覆盖缓存大小、缓存时长的设置; 4) 所采集的时间序列包含时间序列ID(可以由设备编号和传感器或工况编号组成)、时间戳
和值。
5.2.2时间序列数据预处理功能
采集系统应具有以下时间序列数据预处理功能: a) 对于支持实时采集传输的采集程序,能对采集的时间序列数据附加时间截,支持将采集的时间
序列数据点序列化; b) 对于支持近实时采集传输的采集程序,除具备a)中功能外,还能对采集的时间序列数据组包
压缩; c) 具备数据脱敏及加密传输功能: d) 对于支持文件批处理传输的采集程序,除具备b)中功能外,还能运行于高级语言环境,如Ja
va; e): 具备将时间序列数据压缩编码成目标存储管理系统可直接序列化的格式。
5.2.3时间序列数据传输功能
采集系统网络传输能力在不同情况下的时间序列传输功能要求如下。 a) 采集系统具有网络传输能力时,应具有以下时间序列传输功能:
1) 能通过有线或无线网络,将采集到的数据按照实时、近实时和文件批处理等三种方式之 一
上传,采集间隔和传输间隔可以分别设置;
2) 支持用户数据报协议(UDP)、传输控制协议(TCP)等通信协议; 3) 支持消息队列遥测传输(MQTT)、受限应用协议(CoAP)等传输应用协议; 4) 支持选用加密功能和加密算法; 5) 核心数据传输能支持设备端和云端双向鉴别; 6) 传输数据包具有完整性校验功能,支持时间窗口和丢包检测; 7) 传输数据包支持断点续传和重复上传校验; 8) 数据传输具有流控机制,根据设备端采集频率和云端消费速率动态调整上传速率。
b) 采集系统不具有网络传输能力时,应具有以下时间序列传输功能:
1) 能通过离线提取工具,将缓存的数据提取到其他装置; 2) 支持对提取到缓存的数据进行清理。
6时间序列数据存储管理
6.1存储管理流程
时间序列数据在存储管理系统中的生存周期可分为定义周期和运行周期。在时间序列数据存储管理定义周期内,根据数据定义实现时间序列数据元数据的长期存储,流程见图2。
在时间序列数据存储管理运行周期内,通过数据写人实现时间序列数据的长期存储:数据读取发送
查询请求,存储管理系统返回符合查询条件的结果数据;当需要针对数据质量等问题进行数据修正时执行数据更新;当需要针对数据过期等情况将数据从存储设备中删除时执行数据删除,流程见图3。
3
GB/T42201—2022
数据定义
+
数据长期存储(元数据)
图2 时间序列数据存储管理定义周期
数据更新
针对数据质量等间题进行修正
符合在询条件的结果数据
数据写入
数据读取
数据长期存价(时问序列数据)
查询清求
计对数据过期等情况将数据从存储设备中删除
数据删除
图3时间序列数据存储管理运行周期
6.2 2存储管理系统功能 6.2.1时间序列数据定义功能
存储管理系统应具有以下时间序列数据定义功能: a) 能提供针对时间序列的结构定义功能,包括:
1)时间序列的唯一识别ID; 2) 时间序列的数据类型; 3)时间序列的编码方式; 4) 时序序列的压缩和解压缩方式; 5)其他可扩展的用户自定义字段。
b) 能提供针对时序数据的元数据识别功能。 6.2.2 时间序列数据与元数据长期存储功能
存储管理系统应具有以下时间序列数据长期存储功能: a) 将时间序列数据的元数据与数据本身保存到可长期保存的存储设备中(如磁盘和固态盘); b) 对同一时间序列在一段时间内的数据,通过可配置的方式进行统计计算(如平均值)并保存结
果信息; c) 支持将时间序列数据根据其定义的编码方式进行编码; d) 支持存储文件采用压缩算法进行压缩和解压缩; e) 存储文件应包含自描述信息; f) 支持数据文件存储在本地文件系统及分布式文件系统中; g) 支持数据副本等高可用保障技术; h) 存储文件应具有版本信息; 4
GB/T42201—2022
i)支持对序列中的片段根据语义添加标签 6.2.3时间序列数据写入功能
存储管理系统应具有以下时间序列数据写人功能: a) 提供文件级或数据库级的写入接口,包括:打开时间序列数据存储文件、关闭时间序列数据存
储文件、连接时间序列数据库、关闭时间序列数据库和写入时间序列数据等; b) 支持多种写人模式,包括:实时写入、批量写人、按任意时间写人和乱序数据写人等; c) 支持将内存中的缓存数据写入,支持日志策略和缓存机制等写人策略设置; d) 支持异步写人与并行写人; e) 支持存储期限和过期策略设置; f) 支持字段级敏感信息加密写入:
g) 支持在设备边缘侧写人,并同时支持离线加密存储和压缩存储; h) 支持对外部数据文件的快速写入; i) 支持对时间截乱序数据的实时写入。 6.2.4 时间序列数据更新功能
存储管理系统应具有以下时间序列数据更新功能: a)3 支持指定时间序列特定时间点的数据值更新; b)支持指定时间序列特定时间范围内的数据值批量更新。
6.2.5时间序列数据读取功能
存储管理系统应具有以下时间序列数据读取功能: a)提供文件级或数据库级的读取接口,包括:打开时间序列数据存储文件、关闭时间序列数据存
储文件、连接时间序列数据库、关闭时间序列数据库和读取时间序列数据等; b) 支持单一序列时间范围查询,即给定时间序列标识和查询时间范围,返回指定的单一时间序列
中该时间范围内的所有数据; c) 支持单一序列值过滤查询,即给定时间序列标识、查询时间范围和数值的取值范围,返回指定
的单一时间序列中该时间范围内的所有数值满足取值范围的数据; d) 支持任意序列值过滤查询,即给定查询时间范围和数值的取值范围,返回该时间范围内的所有
满足取值范围的时间序列的对应数据;多个时间序列的返回结果能够按照时间戳对齐;
e)
f) 支持异步读取、并行读取以及流水线模式增量读取; g) 支持行级、列级数据读取权限控制; h) 支持按时间区间分组聚合查询,即按固定时间区间,给定时间序列以及时间范围,返回对时间
范围按时间区间进行分组后的聚合数据; i) 支持常见聚合函数(平均值、求和、计数、最大值和最小值)查询;
j) 支持自定义函数,支持使用自定义算子来满足一些复杂过滤查询; k) 支持时序数据的数据质量修复,如支持对任意序列某个时间点缺失值补齐处理。 6.2.6 时间序列数据删除功能
存储管理系统应具有以下时间序列数据删除功能: a) 支持删除一个或多个时间序列存储文件; b) 支持在时间序列数据存储文件或数据库内执行单序列或多序列的删除;
5