
ICS 35.240.40
CGS A 11
JR
中华人民共和国金融行业标准
JR/T 0253—2022
金融服务 生僻字处理指南
Financial services—Guidelines for processing rarely used Chinesecharacters
2022-6-24发布
2022-6-24实施
中国人民银行 发布
JR/T 0253—2022
金融服务 生僻字处理指南
1 范围
本文件提供了金融业信息系统生僻字处理指南,包括生僻字处理总体原则与策略,生僻字的输入、显示、打印、信息交换、存储和内部处理方法,以及生僻字内部培训和投诉处理、生僻字处理方法开源的机制。
本文件适用于为客户提供金融服务的机构及参与金融服务信息交换的机构。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB 18030信息技术 中文编码字符集
GB/T 2312—1980信息交换用汉字编码字符集基本集GB/T 13000信息技术 通用多八位编码字符集(UCS)
IS0/IEC 10646信息技术通用编码字符集(UCS)(Information technology—Universal CodedCharacter Set(UCS))
ISO/IEC 8859-1 信息技术一8位单字节编码图形字符集一第1部分:1号拉丁字母(Information
technology — 8-bit single-byte coded graphic character sets — Part 1:Lain alphabet No.1)
3术语和定义
下列术语和定义适用于本文件。
3.1
编码字符集coded character set
一组无歧义的规则,用以建立一个字符集和该字符集中的字符及其编码表示之间的对应关系,通常也指按照这种规则确定的文字的有序集合。
示例:1.GB 18030是我国制订的以汉字为主并包含多种我国少数民族文字(例如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的大型中文编码字符集标准,业界对该标准的全字符集的技术实现一般称作GB18030编码,该编码包含单字节字符、双字节字符、四字节字符,其中双字节字符编码的技术实现又称作GBK编码。
2.EBCDIC是大型主机的8比特单字节或双字节编码字符集。
注:GB 18030(含空格)指《信息技术 中文编码字符集》标准;GB18030(无空格)指具体字符编码。
[来源:IS0/IEC 8859-1:1998,4.5,有修改]
3.2
编码字符集标识coded character set identifier标识大型主机当前字符使用的编码字符集(3.1)编号。JR/T 0253—2022
示例:1.“1388”表示GB18030中的强制部分用EBCDIC编码实现的字符集。
2.“1392”表示GB 18030中的强制部分的字符集。
3.3
字库 font library建立在计算机存储媒体上的字形数据集合。
注:1.字库在存储方式上一般分硬字库、软字库。硬字库指预烧录在只读存储器等介质中且不能再更改的字库,软字库指以文件形式存储在光盘或者硬盘上的字库。
2.字库一般以ttf、otf、tte等字体格式文件的形式存在。ttf指True Type Font字体文件, otf指Open Type Font字体文件,ttc指True Type Collection字体文件。
3.4
人口信息字库font library of population information
户籍管理部门针对人口信息(人名、地名等)数据数字化而定制的字库(3.3),采用GB/T 13000编码。
3.5
用户自定义区private use area; PUA
未在通用编码字符集中指定,由私有规则决定字符用途的一系列码点,使用三个编码区块:UE000~UF8FF、UF0000~UFFFFD、U100000~U10FFFD。
注:1.一般指人口信息字库中使用的PUA编码,在人口信息字库中,户籍管理部门对未收录进GB/T 13000但实际使用的生僻汉字利用PUA编码予以补充,人口信息字库通过转换对照表提供编码转换解决方案。
2.人口信息字库中部分PUA编码字符陆续被通用编码字符集收录而拥有正式编码,会导致一个字符同时存在正式编码和PUA编码,造成一字多码的情况。
[来源:GB 18030,3.3,有修改]
3.6
生僻字rarely used Chinese characters
GB/T 13000编码区间(U4E00~U9FA5,20,902字)之外的汉字。
注:1993年发布的GB13000收录了U4E00~U9FA5共20,902个汉字,1995年发布的《汉字内码扩展规范》(以下简
称CBK)含21,003个汉字(增加了101个汉字及偏旁部首,包括“类”“鹊”“错”等52个汉字),现已被GB18030代替;由于GBK字符集内的20,902个汉字已能被国内外绝大部分技术产品和国内的应用系统所支持,而其他的汉字往往会遇到问题,故一般认为在20,902个汉字之外的汉字为生僻字。
3.7
通用编码字符集universal coded character set
国际通用的多八位编码字符集。
注:1.通用编码字符集(UCS)标准由国际标准化组织(ISO)与国际电工委员会(IEC)制订,编号为ISO/IEC 10646,
最新版本为ISO/IEC 10646:2020。我国现行GB/T 13000—2010采标自ISO/IEC 10646:2003。
2.统一码(Unicode)是由统一码联盟依据UCS制定的可以容纳世界上所有文字和符号的编码字符集,Unicode