
第32卷,第9期 2012年9月
光谱学与光谱分析 Spectroscopy and Spectral Analysis
Vol.32,No.9,pp2399-2404
September, 2012
并行MapReducePLS算法及其在光谱分析中的应用
杨辉华1,杜玲玲2,李灵巧,唐天彪,郭拓,梁琼麟3,王义明3,罗国安3
1.桂林电子科技大学电子工程与自动化学院,广西桂林541004 2.桂林电子科技大学计算机科学与工程学院,广西桂林541004 3.清华大学分析申心,北京100084
摘要偏最小二乘(PLS)算法是常用的光谱建模算法,然面对于海量光谱处理情形,在单台计算机上建模及优化时间开销很大。基于MapReduce编程模式,提出了并行MapReducePLS回归算法,包括并行数据标准化和并行主成分提取两个过程。在多台普通计算机上措建Hadoop云计算集群平台,以近红外光谱处理为例,开展了算法验证实验。实验结果表明,基于MapReduce编程模式的并行PLS算法对海量近红外光谱数据集进行回归建模时,能有效提高建模速度,随计算机台数的增多可得到接近线性的加速比,并具有良好的扩展性。
关键调并行偏最小二乘;近红外光谱;MapReduce;并行计算;Hadoop;云计算
中图分类号:O657.3
引言
文献标识码:A
DOI: 10. 3964/j. issn. 1000-0593(2012)09-2399-06
计算提出了新的思路。MapReduce的出现为机器学习和数据挖掘的研究提供了新机遇,并且已经在web搜索、网络日志分析、机器学习、数据挖掘等领域成功应用(-]。文献[7]采
作为ASTME1655标准规定的一种红外光谱定量建模算法,偏最小二乘(partialleastsquares,PLS)广泛应用于红外、近红外光谱数据分析。在药品现场质量监督、粮食品质分析等应用领域,建模任务所面临的数据规模越来越大,可用光谱数量可达数万、其至数百万,并且模型数量很大,可达数十万个。然面,由于近红外光谱建模需要对包含有参数的光谱预处理方法、波长选择方法,以及主成分数选择进行反复选代优化,导致获得最优的PLS模型的时间复杂度很高,产重影响近红外光谐数据建模分析的效率。文献1,2」采用多线程技术实现了PLS算法并行化,提高了计算效率,但是传统高性能技术局限于单个计算机的硬件性能,对速度的提高有限,可扩展性差,同时开发难度高。
2004年Go0gle公布其海量数据处理的关键技术 MapReducel)),带来学术界对云计算研究的极大热情。 MapReduce编程模式在大规模数据处理方面,相比传统并行计算模式体现出很大的优势,主要表现在易于编程开发,易于扩展,允许处理机的异构性,对处理机的硬件要求不高,所以在摩尔定律失效的时代,MapReduce编程模式为高性能
收稿日期:2012-03-08,修订日期:2012-06-20
用MapReduce编程模式,提出一种并行机器学习设计方法,在多核计算机上实现机器学习的并行计算设计。Hadoop是一个能够对大量数据分布式处理的软件架构,由Apache公司于2005年作为Lucene的子项目Nutch的一部分正式引人,并于2006年将MapReduce和NutchDistributedFile System纳人Hadoop项目中,Apache的Mahout项目[)是 ApacheSoftwareFoundation(ASF))旗下的个开源项目,提供一些可扩展的机器学习领域经典算法的实现,该项目基于文献[7]开展了机器学习在Hadoop上并行算法实现的研究,并已经实现了部分算法,如K-近邻、贝叶斯分类等"。国内基于MapReduce和Hadoop在机器学习和数据挖掘上的研究也取得了一定的成果,如KD树、SPRINT算法、贝叶斯算法等在MapReduce架构上的并行研究(*.10)。面关于PLS 算法在MapReduce架构上的研究还没有相关报道。
为了解决目前近红外光谱建模处理的数据量大、串行 PLS算法时间复杂度高、建模的训练和测试过程时间长等问题,提出基于MapReduce架构的并行PLS算法。针对PLS 算法的特点和MapReduce编程模式的要求,研究了并行
基金项目:国家自然科学基金项目(30860381),广西自然科学基金项目(2012GXNSFAA053230),广西高等学校优秀人才资助计划项目(桂
教人[2011]40号),广西可信软件重点实验室开放基金项目(kx201121)和广西研究生教育创新计划项目(2010105950812M22, 2011105950811M24)资助
作者简介:杨辉华,1972年生,桂林电子科技大学教投万方数据
e-mail;yanghuihua@tsinghua, edu, cn