您当前的位置:首页>论文资料>光谱多元分析校正集和验证集样本分布优选方法研究

光谱多元分析校正集和验证集样本分布优选方法研究

资料类别:论文资料

文档格式:PDF电子版

文件大小:1.77 MB

资料语言:中文

更新时间:2024-12-11 15:14:56



推荐标签:

内容简介

光谱多元分析校正集和验证集样本分布优选方法研究 第34卷,第4期 2014年4月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
Vol. 34,No.4 -pp947-951
April;2014
光谱多元分析校正集和验证集样本分布优选方法研究
刘伟,赵众*,袁洪福”,宋春风,李效玉”
1.北京化工大学信息科学与技术学院,北京100029 2,北京化工大学材料科学与工程学院,北京100029
摘要分析了校正集和验证集样品数随性质分布不均匀性对光谱多元分析校正的不良影响,揭示了实际光谱多元校正中“均值化”现象,即性质值小的样本预测值结果偏大,性质值大的则偏小,提出了一种优选样品新方法一Rank-KS。其综合考虑光谱空间和性质空间对样本进行挑选,将性质空间平均分为若干小区间,在每个小区间内分别利用Kennard-Stone法和随机法进行校正集和验证集样本的挑选,这样得到的校正集和验证集可明显改善样本数随性质分布的均匀性。以红外光谱测定汽油中碳酸二甲酯(DMC)含量和近红外光谱测定二甲亚矾溶液二甲亚矾浓度为研究对象,分别采用Rank-KS、随机法、Kennard-Stone、浓度梯度法和 SPXY等方法选择校正集和验证集样品,使用多元线性回归和偏最小二乘法建立模型,比较这些方法对光谱多元校正分析的影响,结果表明Rank-KS方法可改善校正集和验证集样品数随性质分布的均匀性;对于样本数分布中间局部样本多和两端局部少、或者局部没有样本的样本集,使用Rank-KS算法挑选校正集,无论使用MLR还是PLS1建立多元分析模型,均能明显改善其模型预测能力,使得到的模型的预测均方根最小。
关键词样本分集;PLS回归;Kennard-Stone理论;近红外光谱;红外光谱
中图分类号:0657.3
引言
文献标识码:A
DOI : 10, 3964 /j. issn. 1000-0593(2014 )04-0947-05
样本有足够的代表性。KS方法将光谱差异大的样本选人校正集,其余样本归人验证集。但是对于含量低或者浓度低的范围,样本之间光谱变化很小,往往选出的样本也不具有代
校正集和验证集样本的选择对光谱多元分析校正至关重要口3]。校正集和验证集样本在性质变化范围内分布应是均匀的3。实际应用中由于受生产条件等因素的限制,在能收集到的样本性质变化范围内,样本个数随性质变化的分布股是不均匀的。中间的样本较多而两端少,以及某段内没有样本的情形最为常见。在多元分析中使用了回归方法,对于分布中间多两端少的样本集,由于中间样本对模型的影响较大,常常导致模型预测结果偏离真实值而趋向于“均值化”,即性质值小的预测值偏大,反之,大的偏小。现有商品软件相关算法大多在校正集样本选择完之后,简单地将其余样本全部归入验证集,并未给出样本数分布的优选算法或规则。然而,如果验证集样本选择不具代表性,将严重影响模型性能的正确评价,
目前常用样本选择方法主要包括随机法(RS)+I和Ken-nard-Stone(KS)法[3}。RS法随机性大,并不能保证所选出的收稿日期:2013-07-01,修订日期:2013-10-15
表性。基于KS还发展了Duplex法"和GN距离法,但并未获得广泛使用。以上方法只考虑了样本集的光谱空间,忽略了性质空间的分布
含量梯度法是将样本按性质值排序,从中按序抽取一定数目的样本组成校正集或验证集,但并未考虑光谱空间。随后,RobertoKawakami*等提出了SPXY方法,在KS方法基础上考虑了性质空间因素9}d,,即
[ *+d=)=(+)
(1)
为使每个样本都有相同的权重,最终的d距离如下
dy (p, q)=
(b--dyp
d(pq)
)maxx- gE[. ) d, (p+ q)"
max,.E[1. >] d. (p+ q
p,E [1, N]
(2)
式中,若样本P,9分别越靠近性质两端,则如式(1)得到的 d,(p,q)越大,dsy(p,q)也越大,导致两端的样本更易被纳
基金项目:国家科技支撑计划课题(2011BAE11B00),国家(863计划)项目(2009AA04Z135),国家自然科学基金项目(60974065)资助作者简介:刘伟,1988年生,北京化工大学信息科学与技术学院硕士研究生e-mail:liuwei_emai@qq com
e-mail : zhaozhong@ mail. buct, edu. cn
*通讯联系人
上一章:镧和铈对两种细菌生长的影响及胞内DNA的荧光光谱分析 下一章:近红外光谱结合主成分分析鉴别不同产地的南丰蜜桔

相关文章

GB/T 29858-2013 分子光谱多元校正定量分析通则 GB/T 29859-2013 分子光谱多元校正定量分析通则 基于色彩恒常性的敦煌典型色彩光谱样本集构建方法 多元散射校正预处理波段对近红外光谱定标模型的影响 近红外光谱定量分析模型的样本影响研究 气体光谱分析应用中傅里叶变换红外光谱基线漂移分段比校正方法 用多元分析方法研究乳腺癌血清的表面增强拉曼光谱 一种基于中性集和均值漂移的彩色遥感图像非监督建筑物提取方法