
教学技务。与率用
基于hadoop平台的
分布式数据挖掘系统的设计探讨
陈志雄
湖北大学计算中心湖北武汶430062
设计开发
摘要:在社会经济快速发展的情下,网络信息技术的更新速度越来越快,如今,促进了大数据时代的进一步发展,而Hadoop作为分市式系统的代表,也成为大数据挖据系统的重要组成部分之一。分布式数据挖据系统的主要任务是利用Hadoop搭建分市式集群环境,然后在该环境上部等相应的数据挖据任务,前提是要对分市式文件系统HDFS和MapReduce的并行编程模式原理进行深入的分析研究,同时选择运用K-means聚类算法,使Hadoop平台的数据挖据系统的任务具有良好的发展效率,同时也能显示其计算能力的扩展性能。下面就Hadoop 平台的分布式数据挖据系统的设计进行深入的分析探讨,进而促进信息数据系统的进一步发展。
关键词:Hadoop平台;数据挖据;系统设计;K-means
中图分类号:TP311.13 1数据挖掘的简单概述
文献标识码:A
HadooD是一个分布式系统基础架构,它实现了一个分布式文件系统,具有极高的容错性,在因特网上是最受欢迎的搜索关键字的内容分类工具,能够解决许多具有伸缩性的问题,能提高文件搜索效率11。而数据挖掘系统是在 Hadoop平台建立的,因此,数据挖掘系统的发展与Hadoop 平台紧密结合。数据挖掘主要是在大量数据中寻找有价值的信息技术,主要由以下三个阶段组成,数据准备阶段,需要对大量的信息进行清理,并对数据整合,同时还对数据格式进行转换;数据挖掘阶段,根据相应的智能算法对数据进行分析,然后形成一定的数据模式;结果评估阶段,主要根据挖掘出的数据模式的运行效果进行评判,对没有任何效果的评估模式全部排除。
2数据挖掘的主要任务与县体计算方法
2.1数据挖据基本任务分析
数据挖掘的任务是由大数据发展的方向决定的,同时为数据挖掘工作提供了方向,由于数据挖掘以寻找数据模式为主,并且数据模式也是随着数据的应用领域不同而发生变化,因此,在数据挖掘期间,其任务主要分为描述性挖掘和预测性挖插两种。描述性挖掘任务主要根据数据的般特征,对数据库中的数据进行概括、息结,然后导找数据之间的关系和类型,最终形成固定的数据模式;对于预测性挖掘主要根据接触的数据傲出相应的判断,并加人与之相对应的新的数据的模式[3]。
2.2数据挖据的其体计算方法
数据聚类算法是对数据进行拆分合并同类项计算,也就是将数据项划分为多层次的子集,对具有相似特性的数据项进行归类,然后对同一个子集中的数据进行计算,该计算方法主要根据数据自身的特性来划分。具体如下所示:
在数据库B中,所有数据的集合为未知数X=X,,X,:
x,··X。,而在许多的x中有一部分其有相似性,因而Xi(i=1,2,3.-n)。其中对于一个整体集合X,被许多具有相似的X组合分割成m个子集,出现了许多的C,,C,,C,". C,。同时每一个子集还要满足一定的条件:①每一个子集
收稿日期:2016-12-20
文章编号:1007-9416(2017)01-0179-0
不能为零;②所有的子集整合后必须恰好等于集合X;③每一个子集不能有共同交集;①④i必须不等于零。
聚类法是数据挖掘算法的重要组成部分,而K-means 算法是最常用的最基本的聚类算法。主要根据空间中K个中心点对相对应的数据对象进行聚类,当然这个点不是固定不变的,而是设定一个或几个点后进行逐一的变换更新,在不断更新分配数据时,就能寻找到符合条件的聚类结果13!。经过长期的更新分配之后,根据数据聚类的规律息结数据模式,然后将这一模式作为数据挖掘系统的固定函数模式,在以后的数据挖掘插计算中只需要代入相关的数据
就可以快速获取结果。 C-Eicax MCn
如上述的函数式,在数据挖掘计算中,需要对C,固定,就可以选择出最优的X,;对X,固定后,就能选择最优的Ck,他们选择的结果都是花费代价最小的时候。采用K-means 计算法可以获得一个最优解的值,这个值会使得挖掘的数
据接近最优,并且在数据挖掘中的优势非常的显著。 3结语
Hadoop是一个能够对大数据进行分布式处理的软件平台,具有极高的可靠性和高效性,因而在数据挖掘系统设计方面能够提供很好的帮助,尤其在数据挖掘计算方法方面,能够根据数据挖掘的数据模式建立比较固定优越的
计算模式。参考文献
[1]郭建伟,李瑛.杜丽萍,赵桂芬.蒋继娅.基于hadoop平台的分市式数据挖据系统研究[J1.中国科技信.息,2013.13:81-83[2]罗刚.基于HADODP的数据挖掘平台分析与设计[J].电子世界.2013.18:1617
[3]樊龙.万定生,顾所辰.基于HadoOP云平台的水利普查数据控据系统的设计和实现[J].计算机与数字工程,2014,05:831-834+875.
作者简介:陈志雄(1983一),男,汉族,湖北武汉人,硕士研究生,实验师,研究方向:信息系统研究,网络信息安全。
179
方方数据