
数事载本与率用
聚类分析算法应用研究,
算法分析
张麟1潘红岩2
(1.哈尔滨职业技术学院黑龙江哈尔滨
150081;2.中国人民银行伊春市中心支行黑龙江伊春153000)
摘要:聚类分析算法是数据挖据中常用的一种算法,通过该算法把一要无规则数据提炼成有规则数据,为其额域发展提供了技术保障。本论文主要从聚类分析算法、聚类分析算法轴述两方面进行崩述聚类分析算法应用研究,希望能为研究数据挖抵的专家与学者提供理论参考依据,为数据挖抵快速发展提供技术保障
关键词:聚类分析算法应用研究算法描述中图分类号:TP311.13
文献标识码:A
聚类分析(ClusterAnalysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖据技术中的数据分析普追运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性,聚类分析中的“类(Cluster)"就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。
1聚类分析算法
根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:
目标数据集合X=(,2,"",X},对于数据集合中的任一数据元素x(=1,2·,n),具有m个特征属性,任一数据元素x的属性特征向量集表示为x,=(,)。通过特定的数据分析处理准则对目标数据集X进行聚类处理后,目标数据集X被划分成具有人个子集的数据类集合,Y=(,Jz,",)(k
(1)y, +@( =1,2, -,k) (2)U.,, =X ;
(3)y, ny, =@(i=1,2,--,; j =1,2,--,;i+ j) ,
根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法, 2K一means聚类分析算法描述
对于给定包含n个数据对象的数据集X=(r,3,,,,),按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:
第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。
第二步:数据准备。计算各科标准差: 0. -(*, -,)*(1.6)
(i=1.2.., n* j=1,2....6) a
收稿日期:20160818
文章编号:1007-9416(2016)10-0143-01
p:
(w,,)
第三步:计算各初始聚类中心。
K, = min(Pe. Piy-, Pe) K, =max(Pg, Pag, Pe) m= do while m≤6
n =1 Jlagemn =1 P/ = P, P.m = P. Pem = P.. dowhilen≤N//N为数据集中数据对象个数
if P, > Para -and.max(P) =.I. Pa rx = Pflagara = R endif
if P, < Pam and.min(P%l) = I. Pam = P%,
flag-rin = n
n=n+1P=Pmm=m+1
第四步:计算与聚类中心最近邻的数据对象,并合并成新类 1=N-num//mum为以完成聚类数据对象个数
选取X"=(x,X*,) d, =K心-Pl
n=1 m=#d.=1000//dmm do whilen≤1
ifdmin >d, d. =d, m= n endif n=n+1 enddo
P与聚类项合并成新类修改X标志项 = +1
第五步:重新计算聚类中心值。
=之P//k为该类中数据对象个数 y
第六步:验证聚类收敛性
if聚类中心K中值无新变化
结束聚类else转人第四步endif 第七步:进行各个类数据分析。
3结语
总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘
过程中有很多算法,每种算法都有自已的优缺点,数据挖掘是
一项
极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。
...下转第145页
作者简介:张瞬(1983一),男,黑龙江哈尔滨人,项士,工程师,研究方向:数据库、数据挖据。
143
万方数据