
第36卷,第8期 2016年8月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
Vol. 36, No. 8, pp24372441
August,2016
联合区间高斯过程的近红外光谱波长选择方法及应用
徐琛,尹燕燕,刘飞*
江南大学轻工过程先进控制教育部重点实验室,自动化研究所,江苏无锡214122
摘要针对近红外光谱应用,提出了一种基于高斯过程(GP)模型的波长选择算法,即联合区间高斯过程(synergy intervalgaussianprocess,siGP)算法。首先将全光谱区域划分为一系列无重复且间距相等的区间,再选取最优的若干个区间联合建立GP模型,由于GP模型具有非线性处理能力,因此该方法可以减少非线性的影响。以红曲菌固态发酵过程中过程参数水分含量和pH值的检测为例,新算法对水分含量、pH值的预测集相关系数(r,)分别为0.9564和0.9773,预测均方根误差(RMSEP)分别为0.0127和0.1610,参与建模的数据点由全谱的1500个分别减少到225个、375个,在对独立样本的预测上,表现出较好的精度。与传统联合区间偏最小二乘(siPLS)波长选择算法对比,siGP算法预测效果更好:对水分含量和pH值,r,在 GP模型预测时提高了3.37%和3.51%,RMSEP在GP模型预测时提高了29.4%和34.8%。表明siGP结合GP模型能够有效选择波长区间以及提高近红外模型的准确性,对进一步实现近红外光谱技术在线检测具有参考价值。
关键词近红外光谱;高斯过程模型;联合区间高斯过程(siGP);红曲菌;水分含量;pH值
中图分类号:O657.33
引言
文献标识码:A
DOl: 10. 3964/j. issn. 10000593(2016)08-243705
程参数与光谱数据之间常常具有一定的非线性,因此,为了提高模型精度,须在波长选择时考虑非线性因素,
作为一种新的机器学习方法,高斯过程(GP)模型可以
近年来,近红外光谱技术(NIR)作为一个过程分析工具,被广泛应用于石油、环境、食品、医药、工业等领域1-4)。与传统实验室分析方法相比,NR具有高效、快速、无损、无污染等特点。
建立NIR定量分析模型,以往大多使用线性回归方法,
如主成分回归(PCR)、偏最小二乘(PLS):但由于光谱数据中,不可避免的会出现非线性因素,一些非线性建模方法被提出,如人工神经网络(ANN)[S)、最小二乘支持向量机(LS SVM)等。波长选择是NIR建模中非常重要的步骤,可以减少无效信息对NIR模型的影响,降低模型复杂度。目前,被广泛应用的波长选择算法有遗传算法(GA)、连续投影算法(SPA)、无信息变量消除(UVE)、间隔偏最小二乘(iPLS) 等。
iPLS算法是将NIR模型建立在全光谱区域中最优的一
个区间上,但在全光谱区域,有效的波长区间不止分布在一个区间,因此联合区间(si)的思想被提出汀,通过选取几个(通常是2,3,4)区间联合建立NIR模型。在实际过程中,过
收稿日期:2015-03-07,修订日期:2015-07-25
处理复杂的非线性问题,且泛化能力强[8-1。与ANN和LS SVM相比,GP模型作为一种非参数概率模型,在给出模型预测值的同时,还可以给出预测值对模型的精度函数;GP 模型的优化参数相对较少,学习速度快,而且更易收敛。近几年,国内外学者逐步重视这一研究热点,并在一些领域得到了成功应用[11-12]。
将GP方法引人近红外光谱检测,提出一种融合GP模型和联合区间策略的波长选择算法:联合区间高斯过程(siGP)算法,为近红外光谱技术建立定量分析模型,在波长选择阶段,提供了一种处理光谱非线性因素的新思路,并应用到红曲菌固态发酵过程参数水分含量和pH值的快速检测中。
siGP波长筛选原理及方法 1.1GP算法描述
对于给定光谱数据样本集A=((x,y:)),i=1,**,,
基金项目:国家自然科学基金项目(NSFC61273087),江苏省产学研前瞻性联合研究项目(BY2013015-27)资助作者简介:徐琛,1990年生,江南大学自动化研究所博士研究生
e-mail, wxjnxc@163, com
通讯联系人
e-mail: fliu@jiangnan. edu. cn