
数事技术与率用
基于自训练大间隔近邻的人脸识别
赵一偶李昆仑李彦波
(河北大学电子信息与工程学院河北保定071002)
应用研究
摘要:人险图像是滑在高维空间的低维流形。流行的本质上表现为特征变化的连续性缓慢性,也表现在空间的相邻性。本文提出了一种基于自训练的大间隔近邻方法,通过自训练过代使类内样本尽可能紧漆,类间样本保持一定大距离,在邻或内标记无标记样本。实验证明,该方法在小样本情况下期有相对较好的识别度:
关键词:车监督自训练间隔人险识列
中图分类号:TP391.41
文献标识码:A
人脸图像是以距离、姿势、光照强度等为参数的高维的数据空间。高维空间的数据结构或极限结构式是难以确定的。但是,根据随机变量中心极限定理,随着样本数的增加,样本分布趋向高斯分布或低维空闻中的投影组合,高维数据变量间存在相关性,大部分数据变量可以用少数变量来组合表示,即高维数据存在允余性,本征维数往往是低维的,人脸图形即是潜在高维空闻的低维流形,流行在本质上表现为特征变化的连续性缓慢性,面这种缓慢变化的特征又表现在空间的相邻性",本文提出了一种基于自训练的间隔近邻方法,该方法相对于大间隔近邻方法,加强了对无标记样本的利用,并且通过自训练送代和数据剪辑,能够在一定程度上,去除误标样本,改善了分类质量,在小样本的人脸识别中拥有较高的识别度。
1距离与间隔
最大的类间距离和最小的类内距离是学习机追求的性能目标。间隔的概念源于V.N.Vapnik提出的支持向量机理论,用最大类间间隔确定最优可分的超平面ShaweTaylor等推出了基于边缘的泛化不等式,证明了闻间隔和泛化能力是密切相关的,使其变为设计闭凸集的边缘最大化的间题"。在解释Adaboost的泛化误差时, Schapire等推导出了一个泛化误差的上界,这个上界和训练样本的间隔分布、训练样本数目和弱分类器所在空间的复杂度有关,并且推断出Adaboost泛化能力不取决于训练误差,面是和训练样本最后收敛的间隔分布相关,训练后的样本的闻隔分布越大,所训练的分类器将获得更好的泛化性能
间隔是决策置信度的几何度量,样本与决策边界的距离越远,样本分类的可信程度越高,其鲁棒性也较好。按照K.Crammer.R论述,闻隔可分为样本间隔和假设间隔:假设间隔是指保持样本标签不变的情况下,决策面能够移动的最大距离,典型算法有Boost, Relief等,样本间隔是指样本与决策边界的距离,典型算法有支持向量机等。间隔思想广泛应用于各种算法或模型中。EBBOOst,基于最大闻隔的贝叶斯网络",基于最大间隔的BP神经网络网等不断的被提出。KilianQ,Weinberger等提出的大间隔近邻算法就是其中的典型,该算法是将样本映射到一个新的空间,使同类样本的距离尽可能的小不同类别样本之间保持一定的大的闻隔,再利用k近邻进行分类操作例。在实践应用中,初始的已标记数据的训练集数量较
收移日期:20150112
文章编号:1007-9416(2015)02-0067-02
小,难以训练出高质量的分类器,因此我们提出了一种基于自训练的大间隔近邻方法,加强未标记数据集的利用,改善了分类质量。
2基于自训练的大间隔近邻
在机器学习的实际应用中,标记样本是少量的,人工标记样本的工作艰苦缓慢,代价昂贵;而更易于获取的、大量的未标记样本更接近数据的整体分布,更能反映整体数据的分布信息,无监督学习其准确度总是较有监督学习的效果较差。固此共同有效地利用标记数据和未标记数据是提高学习性能的合理方法,半监督学习即是这样的方法。半监督算法和未标记数据的联系是建立在以下的假设条件下的。
流行假设:一个很小的局部邻域内的样本具有相似的性质或者变化及其缓慢;聚类假设:一个镁里的样本很有可能属于同一类别在生成式模型中,平滑假设:如果样本在高密度区域很接近,那么对应的输出是可能相关的或接近的。自训练方法是一种典型的半率监督算法:在初始训练集训练一个基本分类器,用基本分类器标记可信度较高的无标记样本,再将新标记的样本加人到初始训练集中,使用扩展后的训练集来重新训练分类器,重复以上过程直到送代条件终止。
基于自训练的间隔邻居算法:
(1)用标记样本作为初始训练集,采用间隔近邻法训练出弱分类器,得到半正定矩阵M和和映射L,数据集,表示的是m个已知标签的样本,其中XR'为d维数样本,Y为其类别,
Minimize, n ,(X,X,)TM(X,X,)+cEun (1Yu)eu Subject to M≥0, eu≥0
(X,X,)TM(X,X,)(X,X,)"M(X,X,)≥1e,
(2)在初始训练集中做数据剪辑,样本距离为D(I,j)=(X-X,)"M(X-X)若标记样本距离最近的两个样本是不同类别,则去除该样本。
(3)将经数据剪辑后的标记样本添加到未标记样本集中,采用样本距离D(I,j)=(X-X,)TM(X-X).任选未标记样本U,计算距离最近的两个样本,如果两个样本都是同类别标记样本,则此U即为该类别。其他情况不采取任何操作,得到新标记样本在本步骤其他无标记样本的决策中,仍然接照无标记样本处理)。
基金项目:(1)河北省自然基金项目:率监督最大间隔学习及在生物特征识别中的应用(F2013201170),2013-2015;(2)河北省高等学校科学技
术研究重点项目(ZD2014008):20142016。
作者简介:赵一伤(1988一),男,汉族,河北保定人,在读研究生,单位:河北大学电子信息与工程学院,研究方向:图像处理与生物特征识别;
李昆仑(1962一),男,汉族,河北保定人,硕士生导师,博士,单位河北大学电子信息与工程学院,研究方向:数据挖据,图像处理,云计算;李彦波(1962一),男,汉族,河北衡水人,硕士生导师,制教授,单位:河北大学电子信息与工程学院,研究方向:模式识别与数据分析。
67