
应用研究
不平衡数据集的混合采样方法
尚旭
(浙江师范大学数理与信息工程学院浙江金华321000)
数字投本写成用
摘要:不平街数据集中由于某类别数量的不平衡,使得类别数量少的容易被误分,导致其分类准确率不高。处理不平衡数据集的方法,可以分为算法方面和数据方面,在数据方面中,主要分为两种方法:过采样和欠采样,但是对于将达两种方法结含的研究不是很多,过采样和欠采样都具有一定的优势,因此设想将这两种方法结含起来,希望可以找到更好的方法。提出两种混含合采样方法:Random-SMOTE+ENN和Random-SMOTE+TNS,并与几种典型的指样方法在数据集上进行实验对比,实验结果表明提出的两种方法是可行有效的。
关键词:不平衡数据集过采样欠采样中图分类号:TP181
文献标识码:A
引言
不平衡数据集"-"是指在一个数据集中,有些类别的样本数量很多,有些类别的样本数量很少,这就形成了数据集各类别样本的不均衡,一般称样本数量少的一类为少数类,有时也可称为正类,样本数量多的一类为多数类,有时也称为负类。在许多不平衡数据集的实际分类中,样本数量少的一类往往对分类来说更重要。在现实生活中,存在着许多数据不平衡的例子,如医疗诊断4,垃圾信息的识别,客户信誉识别例如在医疗诊断中,一个没有病的人被医生诊断为有病,这会使人承受精神的压力,然而假如医生把一个有病的患者诊断为没有病可能就会耽误治疗,有可能会危及病人的生命。正如这些实例,少类数据所拥有的信息往往是所需要的,因此怎样能在分类过程中正确识别这些数据是应该关注和解决的间题。
目前,已经有很多这方面的处理方法可以从两方面考虑:算法方面和数据处理方面。算法方面就是不断完善已有的算法和提出新的分类算法,如代价致感学习,Bagg算法等,数据方面的方法有两种纠,过采样方法和欠采样方法0-。常用的采样方法是随机过采样、随机欠采样、Tomeklinks2),压缩最近邻(CNN)",邻域清理(NCL)(Synthetic Minority OverSampling Techique)SMOTEll, Borderline Smote(BSM)l,onesided selection(OSS)17]等,还有一些组合算法,如Gustavo等人提出的SMOTE+ENN和SMOTE+Tomeklink。
文中主要研究了过采样和欠采样相结合的方法,分别将过采样方法RandomSMOTE和欠采样ENN方法,(Total under sampling)
表1混矩阵
预测正类
实际正类实际负类
数据集 Haberman Blood Pima Indian Fertility glass1 galss-11 Balance Balance1I
Trse Positives(7P) False Positives(FP)
样本个数 306 748 768 599 100 99 87 337 625
收稿日期:2016-10-21
预测负类
False Negatis(FN) True Negaives(TN)
文章编号:1007-9416(2016)12-0068-04
TNS方法结合,即Random-SMOTE+ENN方法和Random-SMOTE+TNS方法。将过采样和欠采样这两种方法相结合是固为在样本数较少的数据集,这两种方法都有不足,过采样或欠采样的效果不好,过采样会使样本数据集的少数类过拟合,而欠采样方法会丢许多样本的信息,组合方法能够有效的解决这两种问题,其次,已经有人研究过将这两种采样方法结合,实验结果表现出良好的效果,最后,这几种方法在单独执行时就表现出了较好的效果,所以将这两种采样方法组合起来,希望会使不平衡数据集的分类效果好。
在预处理阶段采用了6种采样方法,其中包括文章提出的两种对不平衡数据预处理的方法,在选取的9种不同程度数据集上进行预处理及分类实验,最后给出6种采样方法预处理后的分类结果以
及实验结论。 1相关介绍
目前,在已有的处理不平衡数据分类问题的数据处理方法有两方面,一方面是过采样方法,另一方面欠采样方法。随机过采样是对少数类样本进行复制,这会引起样本数据的重叠和过拟合现象,而随机欠采样方法,是随机的删除一些多数类的数据,使各类别的样本数量平衡,然而这会使一些重要样本数据信息丢失,会影响分类时的判断。2002年ChawlaNV等人提出了一种启发式方法:(Synthetic Minority OverSampling Techique)SMOTE,这种方法与随机过采样方法不同,人为的在同类近邻样本间线性插值来生成新的样本,有效的解决了数据重叠现象。针对SMOTE方法的提出,研究者们对SMOTE进行了许多的改进工作,取得了非常好的效果。
下面介绍几种采样方法: 1.1SMOTE
表2数据信息
少数类个教
81 178 268 165 12 6 17 49 49
多数类个数
225 520 500 414 88 70 70 288 576
作者简介:尚危(1989一),男,陕西西安人,项士研究生,研究方向:数据挖据,神经网络万方数据
两者比例 1:2.78 1:3.20 1:1.87 1:2.51 1:7.33 1:2.41 1:4.12 1:5.88 1:11.76