
第32卷,第2期 2012年2月
分析
谱学与光谱光
Spectroscopy and Spectral Analysis
基于随机森林的激变变星候选体的数据挖掘
姜斌,2,3,罗阿理1,赵永恒1
1.中国科学院国家天文台,北京100012
264209
2.山东大学威海分校机电与信息工程学院,山东威海 3.中国科学院研究生院,北京100049
Vol. 32,No. 2,pp510513 February,2012
摘要提出一种适用于在郭守敬望远镜海量光谱中自动、快速筛选激变变星的方法。利用已证认的激变变星光谱作为模板,通过随机森林分类训练,得到一个分类模型,该模型给出了各个波长对应流量的重要性排序,可根据该排序进行降维并用于激变变星判别,结果作为反馈进一步丰富模板库。实验中共发现了16 个新的激变变星候选体,表明了该方法的可行性。
关键词
激变变星;数据挖掘;随机森林;郭守敬望远镜
中图分类号:TP29
引言
文献标识码:A
D0l: 10. 3964/j. issn. 10000593(2012)02-0510-04
据可找到矮新星,利用交叉证认的方法共找到了64个新候选体]。
然而以上基于测光的方法需要人工处理的数据量大,难
激变变星(cataclysmicvariablestars,CVs)是一种拥有白矮星和伴星的双星系统,伴星通常是K型或M型红矮星,有些情况下也可以是一题白矮星或红巨星。充满洛希需的伴星通过吸积盘向白矮星转移物质。激变变星主要分为新星、矮新星、类新星和再发新量。它对于研究恒星和密近双星的结构演化,检验和发展吸积盘理论具有重要的作用和意义。激变变星是比较暗的天体(16~20mag),目前已经发现了两千颗左右的激变变星"]。
郭守敬望远镜是大天区面积多目标光纤光谱天文望远镜(large sky area multi-object fiber spectroscopic telescope, LAMOST)。其巡天将产生海量光谱。这些数据除可用于大样本统计研究的课题外,还包含了激变变星、超新星、贫金属星等稀少天体。使用数据挖掘技术,可在每个观测夜获得的几万条光谱中,在不增加很大投入的情况下快速找出特殊天体的候选体,再使用其他望远镜进行后续观测来进一步证认,从而提高望远镜的科学产出率。
CVs的发现方法一般基于测光观测。其中Szkody使用测光选择判据:g<0.45,g<0.7,r->0.3,1一z> 0.4,此判据可找到白矮星与M型矮星的双星系统,连续7 年对SDSS(sloandigital sky survey)发布的数据进行粗筛选后人工判断,共确认了208个新的候选体(2-})。Patrick使用判据:u-g<0.9,g-r<0.8,r—i<0.8,i-z<1.0,此判
收稿日期:2011-03-10,修订日期:2011-06-20
基金项目:国家自然科学基金项目(10973021,11078013)资助
以适应实时性处理的要求。而且除了少数食系统以外,测光方法需要长时间跟踪观测,不宜做大规模证认工作。
CVs的光谱特征明显;80%观测到的CVs都处于宁静期,此时光谱以发射线为特征,这些发射线包括Balmer线、 HeI和HeⅡ,有时还有FeⅡ,CⅢ/NⅡ;爆发期的光谱具有明显的Balmer吸收特征,有时还有氮线组成的纯吸收谱,或低量子数Balmer线有发射核[9]。
在郭守敬望远镜的海量数据中根据上述光谱特征快速发现CVs类天体只能借助于数据挖掘等自动处理方法。本文使用SDSS数据为实验数据,利用其已发现的CVs光谱作为模板,使用随机森林(randomforest,RF)算法提取光谱特征并根据流量进行波长重要性排序;利用训练后得到的分类器在海量光谱中寻找CVs候选体,大大缩减了数据处理时间。配合山东大学威海分校1m望远镜(测光星等>17m,光谱 0000 时性处理的要求。为在郭守敬望远镜数据中快速寻找特待殊天体进行了有益的尝试。
实验数据及预处理
本文实验数据选自SDSS,其数据和郭守敬望远镜具有可比性。在其casjob数据库中按照Szkody和Patrick颜色判
作商介:姜斌,1977年生,山东大学威海分校机电与信息工程学院讲师万方数据
e-mail; jiangbin@sdu, edu, cn