
第36卷,第10期 2016年10月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
Vol.36,No.10pp3148-3153
October, 2016
一种添加历史数据的近红外光谱特征提取方法研究
李浩光1.2,李卫军1+,覃鸿1,张丽萍1,董肖莉1,于云华2
1.申国科学院半导体研究所高速电路与神经网实验室,北京100083 2.中国石油大学(华东)信息与控制工程学院,山东东营257061
摘要针对近红外光谱定性分析中,增加新的品种进行建模时,原有模型识别效果不够稳定的问题,提出一种在建模样本的基础上添加同类物质的历史光谱数据的特征提取方法,首先采集建模样本的近红外光谱数据,然后添加同种物质样本的历史近红外光谱数据,再对所有近红外光谱数据进行预处理,其次对所有样本数据进行偏最小二乘(PLS)特征提取得到偏最小二乘空间,并只将建模样本数据向构建的偏最小二乘空间进行投影,最后将投影后的建模数据进行正交线性判别分析(OLDA)特征提取,以玉米种子近红外光谱为研究对象,分别对建模数据添加历史近红外光谱以及不添加历史近红外光谱两种情况进行特征提取,并通过仿生模式识别(BPR)方法构建模型进行验证,实验结果表明,添加历史近红外光谱构建偏最小二乘空间的特征提取方法相对于不涨加历更近红外光谱的方法,首先在增加建模集品种数量时,原有的品种识别率基本不变;其次在相同PLS维数时,所建模型对不同时间采集的测试集识别效果基本一致,证明了该方法可以提高模型稳健性。在实际应用中就可以在品种鉴别软件中将特征提取维数设置为固定值,免除了品种鉴
关键词近红外光谱;投影;定性分析;偏最小二乘
中图分类号:0657.3
引言
文献标识码:A
D0I: 10. 3964/j. issn. 10000593(2016)103148-06
测量光谱的仪器参数、样品松紧度、温度、湿度等多方面的背景信息,这些不确定因素会造成模型的不稳定4-5]。
在以往的近红外光谱定性分析中,通常只用某一台仪器
近红外光谱(near infrared spectrum,NIR)是介于可见光
(Vis)与中红外(Mir)之闻间的电磁辐射波,美国材料检测协会(ASTM)将780~2526nm的区域定义为近红外光谱谱区,是人们在吸收光谱中发现的第一个非可见光区。因为近红外光谱区与有机分子中含氢基团(O一H,N一H,C一H)振动的合频和各级借频的吸收区一致,通过扫描样品的近红外光谱,可以获取被测样品中有机分子含氢基团的特征信息,利用近红外光谱技术分析样品具有方便、快速、高效、准确和成本较低,不破坏样品,不消耗化学试剂,不污染环境等优点,因此该技术受到越来越多人的青[1-3],
用仪器测得的近红外光谱实际上是样品的表观光谱,表
观光谱包含确定信息及不确定信息,确定信息是样品的真实光谱特征,而不确定信息是样品光谱上叠加的各种背景信息。表观光谱不仅承载了样品的化学和物理信息,还包含了
收稿日期:2015-08-18,修订日期:2015-12-06
在一段时间内所采集的近红外光谱数据建模,这种方法存在以下两个问间题:(1)测试不同日期的样本时,最优识别效果所对应的特征提取环节的PLS维数或PCA维数会发生变化,即同一个模型识别不同时间采集的测试样本时,最优识别率所对应的特征提取维数不固定;(2)需要给新品种建模时,原有品种的最优识别率及最优识别率所对应的维数都会发生变化。而在实际应用中,使用近红外光谱仪进行品种鉴别或真伪鉴别时,随若时间的推移,往往需要对许多新品种进行建模,由于这种情况导致原有品种的识别效果发生变化,不利于模型的实际应用和推广。
为了解决上述问题,基于近红外光谱定性分析中的“包容"的思想1-}],充分利用历史实验中采集的光谱,提高模型的稳健性,提出了一种在建模品种基础上添加同类物质的历史光谱数据的特征提取方法,以若十玉米神子为研究对象,
基金项目:国家重大科学仪器设备开发专项(2014YQ470377),中央高校基本科研业务费专项资金项目(15CX02103A),国家公派访间学者
项目(留金发[2014]3012号)和中国石油大学胜利学院科技计划项目(KY2015011)资助
作者简介:李浩光,1981年生,中国科学院半导体研究所博士研究生
方方数据系人e-mail:wjli@semi.ac.cn
e-mail: lihaoguang@semi. ac. cn