
第34卷,第1期 2014年1月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
基于Isomap算法的恒星光谱离群点挖掘
下育德,潘景昌“,陈福强
1.山东大学(威海)数学与统计学院,山东威海264209 2,山东大学(威海)信息工程学院,山东威海264209 3.同济大学电子与信息工程学院,上海201804
Vol, 34 ,No. 1 .pp267-273 January,2014
摘要如何从已分类的海量光谱中发现被错分的光谱一直是天文数据处理专家重点研究的问题,探讨的 Isomap算法在该间题方面有很好的表现。通过Isomap算法与主成分分析方法(PCA算法的实验结果对比发现:(1)PCA将具有不同特征的光谱投影到邻近的区域,而Isomap算法却可以将具有相似特征的光谱投影到邻近区域,而将具有不同特征的光谱投影到相距较远的区域:(2)Isomap算法给出的大部分离群点较易判断,且是具有很高科学价值的双星;而PCA给出的离群点难以判断,科学价值不高。因此,在光谱离群点发掘上Isomap算法比PCA有明显优势。由于使用的数据为SDSS最新发布的M型的九种光谱次型的光谱,因而Isomap算法能够快速发现被斯隆数字巡天数据处理流程(SDSSpipeline)错分的光谱,可帮助有效提高现有光谱分类算法的准确率。更进一步,由于被SDSSpipeline错分的光谱大部分是双星,因而Isomap算法还可以进一步帮助我们发现有很高科学研究价值的双星,提高双星的发现效率。虽然实验显示Isoma算法对信噪比变化较为敏感,在具有较低信噪比的光谱上表现较差,但由于信噪比低的光谱的光谱型难以判断,因而该缺点并不影响Isomap算法的在光谱发掘上的应用。
关键词流形学习算法;Isomap算法;主成分分析;数据挖掘
中图分类号:TP29
文献标识码:A
引言
DOI; 10, 3964/j. issn. 1000-0593(2014)01-0267-07
个分量就能够以较高的准确率对不同的恒星光谱进行分类
本文将探讨流形学习算法中的Isomap算法在恒星光谱
随着美国的SLOAN数字巡天项目和中国的大天区面积多目标光纤光谱天文望远镜(LAMOST)相继发布光谱数据,困扰天文学家的光谱数量不足间题已得到缓解。但随之而来的回题是我们怎样正确的对这些海量光谱数据进行分类。如果不能对这些光谱进行准确的分类,后续的如恒星大气物理参数等工作就不能顺利完成。因而,天文学家对如何高效而又准确的对天体光谱进行分类投人了大量精力,以减少分类错误,增加这些大项目的科学产出,
Deeming利用主成分分析法(PCA)对恒星光谱进行了分类1」。Singh等利用PCA对光谱数据进行降维,然后利用神经网络对光谱进行分类3。实验结果显示该方法具有较高的准确度。Connolly等利用PCA对星系光谱进行特征提取,发现星系类型与PCA的前两个特征向量之间的夹角有很强的线性关系3]。Daniel等利用局部线性嵌人算法(LLE)对恒星光谱进行广分类研究。他们发现只利用LLE算法给出的
收稿日期:2013-03-25,修订日期:2013-06-28
基金项目:国家自然科学基金项目(11078013)资助
作者简介:卜育德,1981年生,山东大学(威海)数学与统计学院讲师
离群点挖掘中的应用。将用Isomap对恒星光谱进行降维,并投影到2维空间进行分析。通过分析发现Isomap能把具有相同特征的光谱投影到邻近的区域,而把具有不同特征的光谱投影到较远的区域。
1Isomap算法简介
Isomap算法是Tenenhaum等提出的一种流形学习算法5。与PCA等传统的线性特征提取方法不同,流形学习算法的一个基本假设是数据分布在一个流形上。如何在数据降维的过程中保持好数据之间的非线性性质是流形学习算法考虑的主要问题。在Isomap算法中,两点之间的测地距离替代广原有的欧氏距离,并通过这种方式来体现和保持数据之间的非线性性。Isomap算法的步骤如下:
(1)计算每个点的近邻点(用K领域或者e领域)。 e-mail : buyude00@ 163, com