
第32卷,第1期 2012年1月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
光谱流量标准化的高效计算
李乡儒
华南师范大学数学科学学院,广东广州510631
Vol.32,No. 1,pp179-182
January,2012
摘要流量标准化是光谱数据挖掘中的一个基本环节,他对挖掘结果的精度和系统的效率均有重要影响,常用方法存在效率较低的间题,为此研究了光谱数据挖据中流量标准化的算法设计和效率比较间题。首先,探讨了光谱流量标准化技术不同实现方案的渐进效率,给出了实现高效计算的算法,并分析了它们的时间复杂度和空间复杂度。然后,通过SDSS(sloandigitalskysurvey)的实测光谱数据,横向比较了不同流量标准化算法的效率差异。在光谱流量标准化算法的纵向理论研究中,主要考虑的是计算效率随数据规模增长的变化规律,是在极限意义下进行探讨。在横向实验比较中,考虑重点是不同算法中基本操作时间复杂度的差异及其对算法效率的影响。理论研究和实验结果表明,虽然四种标准化方法Smx,Smdlm,Smm和S的渐进效率的类型相同,但对常见的观测规模光谱数据来说,Sm和Smm的效率远远高于Su和Smein,且常用的S标准化方法效率最低。该研究对于在光谱数据挖掘和开发中,如何根据数据的规模,具体需求,从整
体上考虑精度和效率的折表,以确定合适的流量标准化方法有重要的参考价值。关键调光谱数据挖掘;流量标准化;高效计算
中图分类号:TN911.7
引言
文献标识码:A
DOI: 10. 3964/j. issn. 1000-0593(2012)01-0179-04
nolly提出了三种流量标准化方法,探讨了它们对特征谱和星系光谱分类的影响。结果表明,单位化方法对光谱分类效果最好。它是将光谱看作是高维空间中的一个向量,并通过
随着传感器技术的快速发展,以及2dF,SDSS和
LAMOST等大型测谱遗巡天计划的逐步实施,天文光谱的数据量急速增长,导致了高效天文光谱自动挖揭方法研究的必要性和迫切性(。海量天文光谱的数据挖掘是观测天文数据自动处理、信息提取和共享等的关键技术,它在当前数据密集型天文研究中扮演了越来越重要的角色[2,3]。
本工作探讨了光谱数据挖据中的数据预处理问题。顾名思义,预处理是数据挖掘的准备环节,预处理的质量不仅影响着挖掘的精度/准确性,甚至决定着挖掘系统的稳健性、可用性。因此,预处理是数据挖掘系统的一个关键环节。例如,在天文光谱数据挖据中,通过预处理环节将光谱数据转换为适合算法需要的格式[,去除天光线[5],矫正或剔除定标畸变[4],流量标准化[6-73,纠正或别除错误数据[3.5,58],
去红移并截取公共波段(5.。 1
相关研究
Connolly等最早探讨了光谱流量的标准化间题[]。Con 收稿日期:2011-05-11,修订日期:2011-08-08
将光谱向量投影到以原点位圆心的单位超球面上实现流量的标准化。
假设某类天体的理论观测光谱为工",由于不同天体在亮度、距离方面的差异,以及观测过程中积分时间的不同,所以实际观测到的光谱往往是理论光谱"的某个倍数。为此,作者提出了如下的流量标准化模型)
r = r/o(r)
(1)
其中,r=(1,2,*,)T是观测光谱,工是流量标准化后的光谱,α(z)是标准化因子,它是一个标量。通过定义不同的标准化因子。(x),可给出各种各样的光谱流量标准化方法。尽管这些方法在理论上是完全等价的,但是,由于实测光谱中噪声的存在,以及计算机存储精度的有限性,导致它们在实际使用中的效果往往不同,有些甚至差别很大。理论分析和光谱分类实验研究结果表明,Smur,Smdins,Sman和 S吨四种标准化方法的数值稳定性较好,在这四种方法中,流量标准化因子分别定义如下
Omx(r) = max(X1+2,**,,) = (n) Omede () = median()+2,***,Z,)
基金项目:国家自然科学基金项目(61075033)和广东省自然科学基金项目(S2011010003348)资助
作者简介:李乡偶,1972年生,华南师范大学数学科学学院副教投万方数据
e-mail,xiangru. li@gmail, com
(2)