
第35卷,第5期 2015年5月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
Vol.35,No.5-pp1187-1192
May,2015
基于凸组合核函数的化合物太赫慈透射光谱分类
王瑞琦,沈韬1,2*,马帅,郭剑毅",余正涛
1.昆明理工大学信息工程与自动化学院,云南昆明650504 2.昆明理工大学材料科学与工程学院,云南昆明650093
摘要物质的太赫兹光谱包含着非常丰富的物理和化学信息。它对化合物晶体具有高的灵敏度、单光子能量低等特点。但受到检测人员知识背景、背景噪声、识别算法精度等因素的影响,光谱样本识别准确率和效率较低。为了提高对太赫兹光谱的检测能力,提出应用基于凸组合核函数的support vector machines(SVM)对化合物的THz脉冲透射谱进行分类。在使用小波变换对数据进行滤波预处理之后,提取了传统波峰、波谷位置特征和term frequency-inversedocument frequency(TF-IDF)最大间隔特征。TF-IDF方法使用信息论的原理确定每个采样点的权重,选择权重较大的点作为特征。针对太赫兹透射谱特征相似、维数较低带来的分类困难可题,构建基于凸组合核函数的SVM分类模型。并利用核评价的方法,通过高维非线性规划方程求解最优凸组合参数。当最优凸组合参数被确定时,构建分类模型进行分类和预测。相比较于单一核函数,凸组合核函数将透射谱特征与分类模型融合起来。对于不同的检测样本,数据经过凸组合核函数映射到高维空间后,特征具有更显著的区分度。使用不同的太赫兹透射谱样本进行分类实验,结果表明,分类准确率得到极大提高。
关键词THz透射谱特征;凸组合核函数;核评价;THz-TDs
中图分类号:059
引言
文献标识码:A
D0I: 10. 3964/j. issn. 1000-0593 (2015 )05-1187-06
文献8使用广频率定向成分的方法提取广太赫兹光谱的二维或高维特征,并使用SVM进行分类;文献[9对九种常见毒品和三种混合物毒品的太赫慈光谱进行了特征提取并使用
物质的太赫兹光谱包含着非常丰富的物理和化学信息。太赫兹波与传统光波相比具有很多独特的性质1-3}:(1)太赫慈波对化合物晶体具有高的录致度,能够体现晶体中的声子振动模式。(2)太棘兹波单光子能量很低,1THz频率的光子能量只有4毫电子伏特,因此不会对生物组织和化学分子产生有害的光致电离。所以研究物质在THz波段的光谱对于 THz-TDs技术在物质分类及无损检测方面的应用具有重要意义。
对太赫兹时域光谱的分析方法中,早期采用的是人工识别的方法。文献[4-7指出了不同物质在太赫兹波段具有不同的光学特性,并以此鉴别物质的种类;由于检测人员知识背景和检测水平等因系的影响,文献4-7使用人工识别的方法,容易带来分类误差。同时,受效率限制,人工识别的方法并不适合识别大规模的光谱数据。随者机器学寸的发展,计算机识别的方法开始应用于太赫兹分析和识别领域
收稿日期:2014-04-24,修订日期:2014-08-25
基于单一核函数的SVM进行分类。但上述方法中,并没有考虑在分类时核函数对分类效果产生的影响,也会带来分类误差。对于上述方法的局限性,本工作针对工业化合物的太赫兹透射谱特征较少、参数调优时单一核函数下分类困难的间题,在THz脉冲透射谱波峰、波谷位置特征的基础上加人了TF-IDF最大间隔特征,提出使用基于凸组合核函数SVM 的机器学习分类方法。并利用核评价的方法,通过高维非线性规划方程求解最优凸组合参数,当最优凸组合参数被确定时,构建分类模型进行分类和预测。实验结果表明,比较于单一核函数,所提出的方法将物质的透射谱特征与分类模型
融合起来,同时,分类准确率得到极大提高 1
分类原理 1.1数据预处理
基金项目:国家自然科学基金项目(61303043)和昆明理工大学自然科学研筑基金项目(KKZ3201451015)资助
e-mail;wang37085@163.com
作者简介:王瑞琦,1988年生,昆明理工大学硕士研究生
*通讯联系人e-mail:taoshenl@gmail.com