
第36卷,第4期 2016年4月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
基于模糊大间隔最小球分类模型的恒星光谱
离群数据控掘方法
刘忠宝,赵文娟
1,中北大学计算机与控制工程学院,山西太原03005] 2.山西大学商务学院信息学院,山西太原030031
Vol. 36 ,No. 4 ,pp1245-1248
April,2016
摘要由于人类对宇审的认识有限,因此,如何通过对光谱数据分析发现一些新的、特殊的天体成为天文学家面临的重要课题。目前,常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行分析。然而,当前主流分类算法大多对离群数据不教感,分类性能甚至受离群点影响较大,因而无法完成特殊天体发现任务。鉴于此,提出基于模糊大间隔最小球分类模型的离群数据挖掘方法,该方法利用部分一般样本和离群样本建立最小球模型,并在此基础上引人模糊技术,通过降低噪声的权重,尽量减少噪声的影响。与
C-SVM,SVDD,KNN等传统分类方法在SDSS恒星光谱数据集上的比较实验表明所提方法的有效性。关键调恒星光谱;分类;模糊大间隔最小球;离群数据
中图分类号:TP391
引言
文献标识码:A
DOI : 10. 3964 /j. issn, 1000-0593 (2016 X04-1245-04
星系光谱分类1o]:Mahdi利用自组织映射算法进行光谱分类];Navarro等利用人工神经网络进行光谱分类];刘忠宝等提出基于流形判别分析和支持间量机的恒星光谱分类方
大天区面积多目标光纤光谱天文望远镜(LAMOST)采集到的海量天体数据使天文学家摆脱了“数据贫乏”的窘境但随之而来的问题是如何对这些数据进行有效分析和处理。由于人类对宇宙的认识还较为有限,因此,新天体和特殊天体发现是LAMOST巡天的主要任务。目前,常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行处理和分析。离群数据是指不满足其他数据的一般规律或分布性状,与已有数据不一致的数据“,与一般数据相比,离群数据包含更重要的信息,深人挖掘这部分数据对于特征天体发现至关重要
近年来天体光谱数据分类方法不断涌现,主要包括: Autoclass基于贝叶斯理论并采用非监督学习算法[2],Starck 将小波变换引人光谱分析[3},Gulati等将两层神经网络引人恒星光谱分类*";Bailer-Jones利用神经网络和主成分分析实现恒星光谱分类5;刘蓉等利用小波特征对光谱星系进行分类:杨金福等利用覆盖算法和核方法对天体光谱进行分类;许馨等利用核技巧将非线性问题转化为高维线性问题并利用线性判别分析算法进行光谱分类"};赵梅芳等提出基于自适应增强的光谱分类方法;孙士卫等将数据仓库引人
收稿日期:2015-02-16,修订日期:2015-06-25
法
上述分类方法均能较好地完成天体光谱分类任务,但它们均对离群数据不敏感,分类性能甚至受离群点影响较大,因而无法完成特殊天体发现任务。鉴于此,本文提出模糊最大间隔最小球分类模型(fuzzylargemarginandminimumball classificationmodel,FLM-MBC),该模型对离群点较为感,在一定程度上克服了已有分类方法在特殊天体发现方面的不足,为特殊天体发现研究提供了新的恩路,
基本原理 1
1.1支持向量数据描述
支持向量数据描述(supportvectordata description, SVDD)常常用于解决新额检测问题,其目标是找到一个以c 为球心,R为半径的球状模型。建立该球状模型的关键是确定其球心和半径,它们可由如下最优化问题求得:
线性形式
minR
s. t.Ilex ll≤R
i=1,+**,N
基金项目:国家自然科学基金项目(61202311),山西省高等学校科技创新项目(2014142)资助
作者简介:刘患宝,1981年生,中北大学计算机与控制工程学院副教投
e-mail ; liu_zhongbao@ hotmail. com
(1)(2)