
第33卷,第8期 2013年8月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
Vol.33,No.8,pp2255-2258
August,2013
一种基于属性权值和W-距离的天体光谱异常特征线挖掘方法
娄圣金,张继福,,杨海峰
太原科技大学计算机科学与技术学院,山西太原030024
摘要采用信息摘思想,给出一种基于属性权值和w-距离的异常天体光谱特征线挖掘方法,并开发了天体光谱异常特征线挖掘系统。首先采用信息炳思想计算天体光谱特征线属性权值,从而有效地刻画每条特征线的重要程度;其次采用邻域半径的剪枝技术,对海量天体光谱特征线数据集约简,副除不可能成为异常的数据对象,形成一个候选异常数据集;然后根据离候选异常数据中对象之间的偏差,计算w-距离和,并选取w-距离和较大的前TOP-NN个数据对象作为天文光谱异常特征线数据;最后采用SDSS恒星光谱特
征线数据集,实验和系统运行结果验证了该方法的有效性和可行性。关键调天体光谱;异常特征线;属性权值;剪枝;w-距离
中图分类号:TP311
引言
文献标识码:A
DOI: 10. 3964/j. issn. 1000-0593(2013)08-2255-04
状来体现。选用其特征线作为光谱数据集的属性,可有效地体现光谱数据所包含的重要信息,同时也可有效地降低光谱数据的维数,并使得挖据结果的可理解性更强。本研究采用
我国建成的大型天文观测仪器“大天区面积多目标光纤光谱望远镜"(LAMOST),是一架横卧于南北方向的中星仪式反射施密特望远镜("),在每个观测夜晚能够采集2~4万条光谱,预计所观测到的数据量达到4TB。如何从海量天体光谱数据中,有效地识别未知和特殊天体光谱成为当前研究的难点与热点。
目前,天文光谱数据分析主要集中在天文光谱的分类与识别,采用的主要方法有;交叉相关分析与主成分分析、人工神经网络、支持向量机、小波变换、贝叶斯统计、粗糙集和概念格等(2)。典型的相关工作有:Gulati等给出的一种基于贝叶斯统计的分类方法,其独特的分类效果发现了以前未注意到的光谱类型和谱线(3),Weaver等采用了神经元网络对恒星光谱进行了MK系统分类的识别,针对中低分辨率的紫外和光学波段的光谱,分类精度能达到光谱次型(");刘蓉等应用小波分析方法研究了星系光谱的自动识别问题,然而该方法都是针对流量已定标的光谱,且存在训练样本的选择和光谱样本较少的间题};此外,张继福等针对中低分辨率,研究了基于约束FP树的恒星光谱数据相关性分析[5.]、基于概念格的天体光谱离群数据识别[7.4等。
由于去噪、标准化等预处理后的天体光谱数据,所表现出来的特征信息,可在一些波长(特征线)的流量、峰宽及形
收稿日期:2012-12-29,修订日期:2013-03-20 基金项目:国家自然科学基金项日(61073145)资助
信息摘思想,给出一种基于属性权值和w-距离的天体光谱异常特征线挖揭方法,在此基础上,采用VC十十6.0作为开发工具,设计与实现了异常天文光谱特征线挖揭系统。
天体光谱特征线属性权值和w-距离 1
1.1天体光谱特征线属性权值
在不同星体的天体光谱数据中,相同特征线对于度量异常光谱并不是同等重要的,一此特征线会比另一此特征线的重要程度要高,例如:对O和B类恒星,OVI,Ly\d\ga特征线流量比较强,但对G和K星,这两条特征线流量较弱。因此,赋予光谱数据中各特征线一个体现其重要性程度的指标值,来度量异常光谱更加符合客观实际。参照文献[10],天体光谱特征线加权欧氏距离公式定义为
dg
() N台
(1)
其中:z和工分别是第和条天体光谱中的1条特征线取值,其中;特征线的流量与宽度所构成的面积作为该特征线取值;w是第!条特征线的权值,体现了该特征线的重要程度,且0≤w≤1;M表示光谱数据特征线总数;加权距离 d,度量了i和j两条光谱数据之间的偏差。
作者简介:委圣金,1986年生,太原科技大学计算机科学与技术学院研究生
*通讯联系人
万方数据
e-mail: jifuzh@sina. com
e-mail; loushengjin@163, com