
第32卷,第5期 2012年5月
光谱学与光谱分析 Spectroscopy andSpectralAnalysis
Vol.32,No. 5.pp1435-1438
May,2012
基于模糊C均值聚类的天文光谱特征线软离散化
张继福,李鑫,杨海峰
太原科技大学计算机科学与技术学院,山西太原030024
摘要连续数值属性离散化是天文光谱数据预处理中的主要研究内容之一,针对天文光讲特征线,提出了一种基于改进模棚C均值聚类的天文光讲特征线软离散化算法。该算法首先利用样本的密度值选取特征线的候选初始模糊聚类中心,有效地克服了对噪声数据敏感的缺陷;其次采用决策表中的相容性作为评判标准,动态的调节聚类参数,以达到优化的光谱特征线离散化效果;最后采用晚型星、类星体、高红移类星体SDSS天文光谱待征线数据集,实验验证了该算法具有较高的识别率,为天文光谱特征线数据预处理提供了一种新途径。
关键词天文光谱;特征线,离散化;模糊案类;软划分
DOI; 10, 3964/j. issn. 1000-0593(2012)05-1435-04
中图分类号:TP311
引言
文献标识码:A
标的光谱,存在训练样本的选择和光谱样本较少的间题;张彦度博土采用了文持向量机、学习矢量化、多层神经网络、决策树等数据挖据方法,交叉证认了2MASS,ROSAT与
大天区面积多目标光纤光谱望远镜(LAMOST)是国家重大科学工程项目,也是世界上天文光谱获取率最高的塑远镜("],由于LAM()ST具有高效的测缺天文光谱的能力,可供研究课题将遍及星系团、银河系、活动星系核和系宇宙大尺度结构等,预计所观测到的光谱数据容量将可能达到 4TB,利用数据挖掘技术从海量高维天文光谱数据中,寻找未知和特殊的天体及天文规律是当前垂需研究和操索的新应用领域。针对数据挖掘和机器学习而言,连续数值风性离散化可有效地减少算法的时空开销,提高算法的学习精度,提高系统对样本的象类能力,增强系统抗噪齐的能力。此外,许多数据挖据和机器学习算法只能处理离散型信息,因此天文光谱数据离散化,对天文光讲数据挖据具有重要的意义,
目前天文光讲分析主要集中在光讲型分类和识别,代表性工作有;一种基于贝叶斯统计的分类AutoClass方法,该方法独特的分类结果发现了以前未注意到的一些谱线和光谱类型;Gulati*),Weaver"),Singh"等采用了前向神经网络对恒星光谱进行了MK系烧分类的识别,适用于中低分辨率(0.1~1.5nm)的紫外和光学波段的光谱,不同的只起网络结构或神经元选取有所不间,分类精度能达到光谱次塑; Bei等(")用扩展的卡尔曼滤波提取光讲特征,然后用径向基网络进行恒量光讲型的识别;刘养等"应用小波分析方法,研究了星系光谱的自动识别间题,但该方法是针对流量已定
USNO星表,2MASS与FIRST星表等,此外,张继福等人针对中低分率、硬离散划分的犬文光谱数据,研究了基于约束FP树的恒星光谱数据相关性分析*]、基于概念格的天体光谱离群数据识别"")、基于约束概念格的恒量光谱数据自动分类、基于属性约简的恒星光谱数据分类规则等挖技术]等。
天文光谱数据具有海量、高维、非线性、流量标定难等特征,通过去噪、归一化、标准化等预处理后的每一条光谱数据,所表现出来的主要待征信息仪在一些波长(特征线)的流量、峰宽及形状来体现。选用天文光谱数据的特征线作为光谱数据集的属性,可有效地体现光谱数据所包含的承要信息,间时也可有效地降低了光谱数据的维数,并使得挖掘结果的可理解性更强。本文果用模期象类和决策表相案性思想,提出了一种文光讲特征线软离散化算法。首先利用样本的密度值选取候选初始模糊案类中心,有效地克服了对噪声数据敏感的缺陷:其次采用决策表中的相容性作为评判标准,动态调节算法的参数,以达到最优的光谱特征线离股化效果,有效地刻函和描述天文光谱数据特征线任在的较明整模糊界限和尔此办彼性质;最后采用晚型星、类量体、高红移类量体SDSS犬文光谱特征线数据集,利用等名的C4.5 分类算法构造的识别器,实验验证了该算法具有较高的识别率。
收稿日期:2011-04-07,修订日期:2011-07-20
基金项目:国家白热科学基金项日(61073145),山西省自热科学基金项月(2010011021-2)和山西省同国南学人员科研项目(2009-77)资助
作奢第介:张继福,1963年生,太职科技大学计算机科学与技术学院教授万方数据
e-mail;jifuzhsing.com