
第31卷,第2期 2011年2月
客分析
光谱学与光谱
Spectroscopy and Spcetral Analysis
RMSECV曲线筛选光谱波段算法
周延,曹
晖2*,巨林仓"
1.西安交通大学能源与动力工程学院,陕西西安
710049
2.西安交通大学电气工程学院,陕西西安710049
Vol.31,No.2.pp492-495 February,2011
摘要提出了一种利用偏最小二乘回归系数矩阵筛选光谐波段的算法。该算法利用偏最小二乘回系数作为筛选光谱波长的依据,参考(root-mean-squareserrorofcross-validation,RMSECV)曲线,使初选波长数大大降低。在此基础上通过循环选择将无效信息光谱波长别除,同时增强了所建模型的预测精确性。通过生产过程的Raman光谱数据验证,该算法比传统的利用回归系数筛选波长的算法更好地提高了模型的精确
性,同时降低了模型的复条程度,是一种高效实用的算法。关键词波长选择;偏最小二乘;拉受光谱
中图分类号:0657.3
引言
文献标识码:A
DOI: 10. 3964/j. issn. 1000-0593(2011)02-0492-04
出有用信息变量,将可用建模数据的变量数大大降低,同时不需要人为确定筛选阔值,在预测精度不降低的情况下,大大简化了模型,提高了运算效率。
偏最小二乘技术是光谱数据建模的主要技术之一[1.2],
由于该方法将高维高相关性的光谱波段数据投影到低维空间来建立光谱模型[35],使其适用于样本数量远远小于变量数量时的光谱建模(6.7)。偏最小二乘技术稳健性强(",在对光谱建模时可以选全波段建模,但是由于全波段中往往含有大量对建模本身无用的无信息变量,会降低建模精度,且全波段的波长往往数据量巨大,会降低运算速度,因此需要考虑选挥邢些含有较多有用信息的波长强度变量,别除对建模无益的无信息变量("),
波长选择方法主要有两大类,遗传算法[1913]和利用回归系数短阵选择(8.14]的方法。遗传算法虽然其有一定精度,但其收敏速度较慢。而利用回归系数信息进行变量筛选由于速度快且有较高精度,已成为当前光谱波段选择的一类主要方法,主要有无信息变量消除法["1]、投影分析法(]。无信息变量消除法在选取波长时通过加人随机噪声直接确定阔值,虽然直观实用,但并不能保证阔值选择得恰到好处(15),而投影向量分析法,则需要人为确定波长筛选的阔值,不能保证阀值的合理性。
本文提出了一种通过偏最小二乘回归系数和RMSECV 曲线米别除无用信息变量,进行数据的初步处理,将可用变量组的维数降低,再将处理后的数据循环筛选,进一步筛选
1
算法
该算法是利用偏最小二乘回归系数b作为光谱波段选择
的主要参数,算法流程如图1所示,
本文利用了与文献[14]中提到的利用同归系数来确定变量重要性的方法,不同的是这单直接采用了回归系数来确定无信息变量的范期。随着所选变款数的增加,利用变肽集合建模所得到的RMSECV值绘制成曲线,当其值达到最小时,这时所对应的变量集合即为初次筛选的结果,通过循环筛选来进一步缩小有用信息变的范围,当RMSECV不能再降低时,所选的变量组即最后结果。
2
实验部分
2.1数据来源
本文采用了氢化过程的拉受光谱数据的77个样本,在该过程中通过催化反应生成乙苯,溶液中物质的浓度分别由拉蔓光谱仪和色谱检测出来,其中色谱仪数据作为标准数据,光谱的波数范图从250到3300cm=1(图2)。
收稿日期:2010-05-24,修订日期:2010-10-09
基金项目:国家高技术研究发展(863计划)项目(2006AA04Z180)和教育部博土点基金项目(20090201120005)资助
作者简介:周延,1977年生,西安交通大学能源与动力工程学院讲师
*通讯联系人
万方数据
e-mail; huicao@mail, xjtu. edu, cn
e-mail;yan. zhou@mail. xjtu. edu. cn