您当前的位置:首页>行业标准>GB/T 42755-2023 人工智能 面向机器学习的数据标注规程 正式版

GB/T 42755-2023 人工智能 面向机器学习的数据标注规程 正式版

资料类别:行业标准

文档格式:PDF电子版

文件大小:1.57 MB

资料语言:中文

更新时间:2023-11-15 14:18:50



相关搜索: 数据 规程 人工智能 学习 机器 机器 正式版 42755

内容简介

GB/T 42755-2023 人工智能 面向机器学习的数据标注规程 正式版 C35.240
中华人民共和国国家标准
GE/T 42752023
人工智能 面向机器学习的数据标注规程 Avtinxial fnielligeee--ode cr aalae lur aata lalkutrg nt meehiue harning
2023-05-23发布
2028-12-01实施
国家市场 营 管 总 晨
国 家标雅 化 管 理 鑫 质 4 爱
布 GVT ZIN-ES

sfnw
1
0 爱范售用龙件农爆响免欢耀超祥健您标证餐务简财幸务 5.3 春店 htapgeo2 5.a 惊具酒
fenn
领悠杯装行 5号
就国接贺 6. 盛馨证 . 雪运美堂迎 3a 7.1 内静质检 T.A 装播定价
646
质鸭
.
儿 连权部 GB/T42755—2023
前言
本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:北京航空航天大学、中国电子技术标准化研究院、北京百度网讯科技有限公司、浪
潮软件科技有限公司、山东省人工智能研究院、美的集团(上海)有限公司、北京智谱华章科技有限公司、 北京爱数智慧科技有限公司、腾讯云计算(北京)有限责任公司、北京航天自动控制研究所、郑州中业科技股份有限公司、东软集团股份有限公司、北京海天瑞声科技股份有限公司、云从科技集团股份有限公司、深圳云天励飞技术股份有限公司、中国科学院软件研究所、上海依图网络科技有限公司、中国医学科学院生物医学工程研究所、平安科技(深圳) 有限公司 海商汤智能科技有限公司、上海人工智能实验室、上海计算机软件技术开发中心、中国航空综合技术研究所、中国科学院新疆理化技术研究所、中国质量认证中心、中汽数据(天津)有限公司、北京眼神科技有限公司、上海人工智能研究院有限公司、浙江大华技术股份有限公司、杭州趣链科技有限公司、常州微亿智造科技有限公司、长春博立电子科技有限公司、罗克佳华科技集团股份有限公司、上海交通大学、上海计算机软件技术开发中心。
A
本文件主要起草人:吴文峻、董建、马瑞珊、刘祥龙、徐洋、贾一君、孟令中、任健、陈斌、赵豪杰、刘海涛、 陈尚义、脱立恒、左家平、王丽娜、徐领、王健宗、张楠、蔡亚森、王功明、陈敏刚、赵赫、金铸、郝玉峰、刘永辉、 李玮、赵春臭、黄志龙、杨春林、王潇蔓、施佳探、舒明雷、王英龙、匡立中、陈晓丰、吴庚、蒋慧、蒲江波、 马元巍、邢警、乔宇、何聪辉、杨雅婷、马博、陶剑、胡进伟、楚思思、李军、宋海涛、沈灏、程淼、郑忠斌、 李爽。
I GB/T42755—2023
人工智能 面向机器学习的数据标注规程
1范围
本文件规定了人工智能领域面向机器学习的数据标注框架流程。 本文件适用于指导人工智能领域面向机器学习的数据标注以及与之相关的研究、开发和应用等。
2规范性引用文件
2
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T35274一2017信息安全技术大数据服务安全能力要求 GB/T37973—2019 9信息安全技术大数据安全管理指南
术语和定义
3
下列术语和定义适用于本文件。
3.1
数据标注 datalabeling 给数据样本指定目标变量和赋值的过程。
3.2
标注任务 labelingtask 按照数据标注说明对数据进行标注的活动,
3.3
数据标注方 data labeler 承担数据标注任务的人员或机构。
3.4
数据需求方datauser 提出数据标注需求的人员或机构。
3.5
标注管理方 datalabelingadministrator 管理数据标注任务评估、分发、交付、验收以及质量把控的人员或机构。
3.6
标注工具labelingtool 数据标注方执行数据标注时使用的工具,标注管理方管理数据标注时使用的工具,数据需求方验收
数据标注时使用的工具等所有流程相关的工具。 3.7
标注任务说明 labeling task description 数据需求方用于向标注管理方以及数据标注方明确标注任务的书面表达。 注:标注任务说明通常包含对要执行的标注任务的描述、标注方法、正反示例、验收方法与验收指标等内容。
Y G/T4270-2023
德格标梦美爱
2
好性保承质质求力新注售经六及想忘标锋方三方人就,宝家通招新生在务放最务标经社务教行,家健装果勤国三十价發:微#整商密息夏1
的 Ma
s


-
级微的咨物

# 内实代商
降管微管发

SAR WAAR2
佳务菜
肉能实教设
#馆
服盛# 老热路花
N
MIA pan
.0 务器警请究品
图 蒙福光器福物
宠经散真准管发教换管我方和#连管大康家定极经任公:完成爆进内音顺领性装装的真意,好评情注证务,真数求做是家我更事有富夏到更更餐性质求:开宝评坏整征务。新献疯养解最友极刷标注人成的再求意联扭据找方,同时的定恭您事家,选等合造的样工县格家,在家健任家教行服,纸活本市,新餐质教标生大二人美座部标性就的过控制,高摩春在教的球,意,开风风装:商群建保证标控美费量:严营基学,在#美首意教健准意家#社方是教进行内部心意质生合教格能是好紧恶意付快益服强豪,你社爱的最诗有就利,质新生完爽:爱用理行是期操的环节微添#进育家教#进行誉正养靠店肉#联经筑器。 GB/T42755—2023
5标注任务前期准备
5
5.1标注任务
5.1.1标注任务确定
标注内容由标注需求方在标注任务说明中提供,标注任务说明一经确认,不可修改,如需修改则进入需求变更环节,标注任务应包括但不限于:
a) 版本信息:明确当前版本编号、发布日期、发布人、发布说明(发布原因或选代原因) b) 历史选代信息(历代版本编号、发布日期、发布人、发布说明等); c) 项目背景:明确数据标注需求产生的原因,以及数据标注结果的应用场景; d) 任务描述:明确数据标注任务,包括数据形式、数据规模、标注规则、相关术语、标注样例、质量
要求、指标计算方式、验收流程、交付时间等; e) 主客观描述:明确说明数据标签是根据个人专业领域知识进行标注,还是客观认识进行的
标注; f)* 标注人员资质:约定标注任务参与人员的资质要求; g)标注结果:明确数据标注结果的交付形式; h) 知识产权:明确数据的知识产权归属。
5.1.2标注数据确定 5.1.2.1待标注数据分析
数据标注前,数据需求方应对待标注数据进行分析,核对标注任务,包括: a)数据核查:检查待标注数据是否与标注任务说明书中的数据定义相符,核查结果及时同步给数
据需求方; b)数据整理:建立完善的数据追踪机制,实现数据整理,以及最小粒度的数据追踪; c)数据处理:根据标注任务以及标注数据的特性,通过数据聚类、组合排列、数据杂质去除等方
法,提高标注质量。
5.1.2.2数据安全等级确定
根据标注任务中的数据安全描述,数据需求方应根据GB/T37973一2019及GB/T35274一2017 相关要求,确定标注数据的安全等级。
:
5.1.3标注任务评估
数据标注前,标注管理方应对标注任务进行评估,包括: a)根据标注任务说明,评估标注任务可行性、标注规则合理性: b)在数据需求方提供的小规模样本上进行预标注,将标注结果提交给数据需求方验收。在获得
数据需求方确认后,再正式启动数据标注任务。 注:及时记录数据预标注流程中标注规则与数据相存、覆盖不全或规则之间相停的情况,并向数据需求方反馈完善
标注规则。
5.1.4标注需求变更
标注需求方需求变更时,应在标注管理方评审同意后更新标注任务说明,重新进人标注任务评估阶段。
3 GB/T 42755—2023
5.2标注人员 5.2.1标注人员范围
数据标注方应根据标注任务内容中规定的标注人员资质需求,确定符合要求的人员进人标注人员培训环节。 5.2.2标注人员培训
数据标注方应根据标注任务说明,对标注人员进行岗前能力培训。标注能力考试合格者,方能参与标注任务。 5.2.3标注人员能力档案
数据标注方应建立标注人员能力档案,记录标注人员承担标注任务的相关内容,用于进行标注人员能力评估与标注质量追踪。 5.3标注环境 5.3.1选择标注工具
数据标注方应根据标注任务难度、数据处理规模及数据属性特征、数据安全控制层级与方式,合理选择标注工具,完成数据标注任务。 5.3.2选择标注场地
数据标注方应根据标注任务中必要的数据安全要求,搭建数据标注场地。
6标注任务执行
6.1过程控制
6.1.1标注任务创建
标注任务创建主要包括以下内容: a) 任务包创建:数据需求方应以适应标注环境分发、标注工具读取为目标,将需要标注的数据合
理分组,保证数据标注质量以及后续的任务分配; b) 任务账户创建:数据需求方应以标注人员数量为依据,综合标注、质量分析等任务需求,根据标
注环境或者标注工具,创建标注过程中所需要使用的用户账户,并分配相应的权限或账户使用规则;
c)任务创建保障:标注管理方应制定标注任务创建和数据上传相关制度,明确数据上传分类分
级、数据安全风险评估和安全监控制度,监管上传数据的合法合规性。
6.1.2标注任务分发
标注任务分发主要包括以下内容: a)标注任务分发类型:标注管理方应根据标注任务要求的标注环境、标注工具,结合标注质量管
理以及标注速度管理,在保证标注质量的前提下,选择主动领取或系统自动分发等任务分发类型,优化标注任务分发策略:
b)标注任务分发保障:标注管理方应制定标注任务分发安全管理制度,明确标注任务分发日志内
容,监控标注任务分发安全。
4 GB/T42755—2023
6.1.3标注任务开展
标注任务开展主要包括以下内容: a)标注任务分配:数据标注方应安排数据标注人员使用分配的标注账户,对分配到的任务进行
标注; b) 标注过程反馈:数据标注方应建立标注过程反馈机制,将与标注要求不符、标注要求中未涵盖
的数据等情况,及时反馈给标注管理方和数据需求方,确保标注规则与数据的匹配度; c) 标注任务开展保障:数据标注方应明确数据脱敏和个人信息安全影响评估制度,在标注前对个
人信息进行数据脱敏处理,保障数据标注流程合法合规性,并对数据标注结果进行分级制度,适当提高数据安全等级。
6.1.4标注任务回收
在标注任务完成后,数据标注方的标注团队负责人应检查标注数量,确保所有任务包均被回收,对未能及时完成的任务包,要建立适当的沟通和回收再发放的管理机制,以确保标注任务按期完成,保证任务进度。 6.2质量保证 6.2.1标注任务质量检查
在标注过程中,应采用多种检查方法对标注任务质量进行检测,对不满足标注任务要求的,及时预警反馈,并查明问题原因。根据项目特性,标注任务质量检查方法可归纳为以下三种。
a)机器验证:在任务进行期间,安排超过名人员做同一个子任务,选择出最优、最正确的标注结
果。结果选择可通过下列方式。 1) 标注工具自动选择:通过与标注工具匹配的模型推理,或拟合若干个标注结果,选择其中
置信度最高的标注结果,作为最终结果; 2), 人工辅助选择:人工对多个标注结果进行对比,从而挑选出置信度最高的标注结果作为最
终结果。对于需要特定专业知识标注的领域,进行人工辅助标注时应以多个专家的共同商议结果作为最终结果。
b)埋题验证:在任务进行期间,除了常规标注子任务外,在任务中混进若干已知结果的测试题,以
此验证标注质量。在此操作的过程中注意以下事项。 1)针对数据特征专题专用:对于埋题验证,应保障测试题在真题中间处于混淆的状态。因
此,在出题的过程中,应针对数据的自身特征(数据的类别、场景、内容等),准备相应的题目,避免题目暴露于操作者,失去验证的效果。
2) 限制题目的使用次数:为避免题目多次出现,引起被测者的注意,从而失去验证效果,应限
制题目的使用次数。尤其是拥有容易记忆的特征点的题目(如特定脸部特征、特定文字、 特定场景等),应严格限制出现的次数。
c)标注人员状态验证:通过对标注人员的操作规范性、实时注意力状态、标注准确率等方面进行
检查与监测,及时发现操作违规问题,保证数据质量;在发现操作违规问题、数据质量有下降时,应根据时间段等特征,对标注人员在这一状态内操作的标注数据进行检查或者返工等操作。
6.2.2标注任务一致性检查
在标注任务进行期间应使用统计规则或模型验证等方法,得到标注任务一致性水平,一且发现离群点或明显的降低趋势,及时对标注人员预警和警告。
5
上一章:JB/T 8471-2010 袋式除尘器 安装技术要求与验收规范 下一章:GB/T 42831-2023 正式版 导引服务机器人 通用技术条件

相关文章

GB/T 42755-2023 人工智能 面向机器学习的数据标注规程 GB/T 42888-2023 正式版 信息安全技术 机器学习算法安全评估规范 机器学习算法在数据挖掘中的应用 GB/T 37380-2019 面向个人移动便携终端智能交通运输信息服务应用数据交换协议 T/CSAE 212-2021 智能网联汽车场景数据图像标注要求及方法 T/JSJTQX 07-2019 面向智能交通的元数据交换技术要求 YY/T 1833.3-2022 人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求 GB/T 39402-2020 面向人机协作的工业机器人设计规范