
第30卷,第11期 2010年11月
谱学与
光谱
分析
光
Spectroscopy and Spectral Analysis
Vol.30.No.11,pp2932-2935
November,2010
基于Elasticnet主成分优选的近红外光谱定量分析模型
陈万会,刘旭华,何雄奎,闵顺耕,张录达”
中国农业大学理学院,北京100193
摘要Elasticnet是对最小二乘方法的一种改进,在最小二乘法的基础上增加了L,和L惩罚,具有变量选择和模型可提高预测精度的良好性质。此研究以89个小麦样品为实验材料,通过Elasticnet方法优选光谐主成分,建立近红外光诺与小麦中蛋白质含量之间的定量分析模型,考证了Elasticnet优选主成分建立定量分析模型的可行性。实验中将89个小麦样品随机分成两组,60个样品做建模集,其余29个做预测集。60 个样品所建模型预测29个样品的蛋白质含量,预测值和化学测量值间的相关系数(r)为0.9849,平均相对误差为2.48%。为进一步考察该方法建模的可行性和稳定性,对89个样品分别进行5次随机划分,60个样品做为建模集,29个样品做为预测集,5次建模所选光谱的主成分基本一致;同时与PCR和PLS方法作对比,结果显示5次所建模型的预测效果明显好于PCR,且与PLS方法相近。鉴于Elasticnet具有变量选择的功能,且所建模型具有较好的预测效果,表明该方法是一种可行的建立化学计量学定量分析模型的方法。
Elasticnet;近红外光谱;变量选择
关键调
中图分类号:O657.3
引言
文献标识码:A
DOI; 10. 3964/j. issn. 1000-0593(2010)11-2932-04
通过L罚函数收缩回归系数达到降低误差的目的(。Lasso 回归是在一般线性最小二乘法的前提下增加L,惩罚],使
近红外光谱(800~2500nm)含有丰富的含氢基团的信息("],因而日益受到光谱分析学界的重视(2.3)。由于近红外光谱信号强度弱,NIR光谱信息重餐(4SJ,所以必须利用多元统计的方法建立数学模型才能进行样品分析。近红外光谱信息采集区包括几百甚至上千个波长点,样品某些波长点处的光谱信息存在线性关系,光谱矩阵不是满秩的,不易直接建立多元回归模型进行预测("),解决上述问题,目前比较成功的方法有主成分同归法(PCR)、偏最小二乘法(PLS)I})等。
PCR把原自变量转换为含绝大部分信息的少数主成分,用线性最小二乘法建立主成分与因变量的回归方程,但主成分的确定与因变量无关,因而预测精度也难达到很高8。 PLS是确定和因变量相关性大的主成分,建立回归模型。国内外多种实验结果表明在近红外光谱分析中,PLS方法建模的预测结果优于一般的线性模型["]。
Elasticnet是一种新的回归分析和变量选择的方法(o),是在一般的最小二乘同归基础上增加性网惩罚,即岭回归惩罚和Lasso[回归惩罚的线性组合岭回归(ridgeregress)是
收稿日期:2009-12-20,修订日期:2010-03-10
各同归系数的绝对值之和小于某一常数,由于这个约束的自然属性,使得该间归模型确定的回归系数有的变为零,起到了变量选择的作用,有利于提高模型的预测精度,缺点是可能导致过度压缩(13)。Elasticnet结合这两种罚函数,通过选择变量降低模型预测误差,且一般不过度压缩同归系数。基于Elastic net的主成分建模分析,首先进行主成分分析确定一定数目的主成分,然后利用Elasticnet方法优选主成分建立回归模型。
实验仪器与材料 1.1实验仪器
实验所用仪器为Verctor22/N型里叶变换近红外光谱仪(Bruker公司),扫描谱区范围为4000~12000cm~1,
扫描分辨率为4cm=1,扫描64次取平均。 1.2实验材料
由中国农业科学院品种资源所提供小麦样品89个,样品被碾磨成粉状,过60目筛。采用国标凯氏定氮法测定其蛋
基金项目:国家自热科学基金项目(30370915,20575076),国家高技术研究发展计划(863计划)项目(2007AA10Z208)和中央高校基本科研
业务费专项资金项目(2009-2-05)资助
作者简介:陈万会,1983年生,中国农业大学理学院硕士研究生
?通讯联系人
万方数据
e-mail: zhangld@cau edu, cn
e-mail; chenwanhui, hehe@163, com