
第33卷,第2期 2013年2月
学与光谱分析
谱光
Spectroscopy and Spectral Analysis
SDSS-DR8中激变变星候选体的数据挖掘
姜斌,潘景,王
为
山东大学(威海)机电与信息工程学院,山东威海
264209
Vol. 33, No. 2, pp464-467 February, 2013
摘要提出一套适用于在海量光谱中快速发现激变变星的方法。针对SDSS发布的DR8数据,尝试流型学习方法在海量光谱数据挖掘中的应用。首先使用非线性局部线性嵌人方法(LLE)对海量光谱数据进行降维,然后使用人工神经网络对低维数据进行分类,最后对较少数量的候选体进行人工证认。实验共发现了6 个新的激变变星候选体,并与传统的PCA方法进行了比较,验证了LLE方法在天文数据挖据中的可行性。
关健词
激变变量;数据挖据;LLE;光谱
中图分类号:TP29
引言
文献标识码:A
DOI: 10.3964/j.issn.1000-0593(2013)02-0464-04
维处理中的应用。
局部线性嵌人(locallylinearembedding,LLE)打破了以 PCA为主的传统线性降维方法的框架),是目前最有竞争
斯降数字巡天(sloandigitalskysurvey,SDSS)是一项宏伟的邀天计划。它对园分之一的天区进行观测,对一亿个以上的天体测定位置和亮度,对一百万颗以上的星系和类星体测定距离,其巡天得到的数据量是空前的,大约为15TB。 SDSS的1-DPipeline虽然对每一条光谱都进行了初步处理,给出了分类结果,但其分类方法基于模板匹配,对于一些稀少的特殊天体,因为模板数量少、信噪比差等原因,造成 Pipeline分类准确率低[2]。以激变变星(cataclysmicvariable stars,CVs)为例[,对SDSS-DR8光谱数据分类subclass定义为CVs的1000条光谱进行人工检验(),发现其分类错误率高达98%,因此无法根据Pipeline的分类结果直接挑选某些特殊天体进行研究。
如何在海量数据中准确、快速发现特殊天体对模式识别技术提出了挑战。本工作分别尝试使用了主分量分析(prin-ciple components analysis,PCA)+支持向量机(support vec tormachine,SVM)和随机森林的方法对SDSS的DR2~DR7 的海量光谱进行了针对激变变星的数据挖掘。实验结果表明,使用模式识别方法对海量光谱数据针对某类天体的光谱特点,进行数据挖揭是完全可行的。
对于高维的光谱数据,为减少处理时间,在进行分类或者聚类处理前,需要对高维光谱进行降维处理。目前对高维的天文光谱数据进行降维主要使用传统的线性方法如PCA 等[")。实践发现海量光谱数据在投影到特征空间后往往呈现非线性的特点[],因此有必要探讨非线性方法在高维光谱降
收稿日期:2012-06-25,修订日期:2012-09-29
基金项目:国家自然科学基金项目(11078013)资助
力的非线性降维方法之一。其基本思想是将全局非线性转化为局部线性,用相互重叠的局部邻域提供全局结构的信息。对每个局部进行线性降维后,再按照某种规则将结果组合在-起,得到低维坐标表示。
2011年SLOAN发布了最新的DR8数据[8,本研究以 DR8的1844222条光谱为实验数据,以激变变星为目标,在使用LLE降维后,使用人工神经网络(artificialneuralnet-work,ANN)["]对降维后的数据进行分类,最后对较少的结果人工检验,共发现了426个激变变星候选体,其中6个是新的候选体。相对于传统的PCA方法,LLE方法虽然计算量大,但准确度和PCA处于同一量级,面且在低维空间对光谱待征的描述更准确。本文通过实验验证了LLE方法的可行性,探讨了非线性降维方法在天文数据挖掘中的应用,为流型学习方法在天文数据处理中的应用进行了有益的尝试。
数据及预处理
实验数据来自SDSS-DR8,共包含2704个天区的 1844222条光谱。在进行降维和分类之前,通过以下几步对光谱数据进行预处理
(1)去除所有信噪比<5的数据:
(2)将所有的流量统一插值到3800~9000A;(3)使用式(1)将流量归一化到[1,十1
斌,1977年生,山东大学(威海)机电与信息工程学院讲师
作者简介:姜万方数据
e-mail; jiangbin@sdu, edu cn