您当前的位置:首页>论文资料>聚类综述

聚类综述

资料类别:论文资料

文档格式:PDF电子版

文件大小:2.26 MB

资料语言:中文

更新时间:2024-12-19 17:22:43



推荐标签:

内容简介

聚类综述 学术论坛
聚类综述王小标黄治移杨昆张雪松
(安徽财经大学管理科学与工程学院安徽蚌雄233030)
热事热十与真类
摘要:聚类是数据挖抵中用来发现数据分布和隐舍模式的一项重要计算。崩述了聚类算法的基本原理,应用方向等,总结了聚类算法的研究现状
关键词:聚类聚类分析
中图分类号:TP391 1、引言
文献标识码:A
文章编号:1007-9416(2012)05-0204-02
地包含任务关心的信息。在特征中,使信息元长减少和最小化是主
在对世界的分析和描述中,类或在概念上有意义的其有公共特性的对象组,扮演着重要的角色。的确,人类措长将对象划分成组(聚类),并将特定的对象指派到这些组(分类),利用聚类操作可以对数据进行分组和深人分析,获得其他方法不可能获得的信息。就理解数据而言,簇是潜在的类,而聚类分析是研究自动发现这些类的技术。
2、相关概念
聚类;可以看作一种分类,是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的護是一组数据对象的集合,这些对象与同一个键中的对象彼此相似,与其他簇中的对象相异。顾名思义是将一组对象划分为若干类,每个类中的对象相似度较高,类与类之闻的对象相似度较差。
聚类分析":根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是在相似的基础上收集数据来分类。它以相似性为基础,因此组内的相似性(同质性)越大,组间差别越大,聚类就越好,所分的类就越成功。
聚类分析的基本思想":聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量数据进行分组归类,以便了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是用数学的方法研究和处理给定对象的分类,把一个没有类别标记的
样本按照某种准则划分子类,使相似的样本尽可能归为一类。 3、聚类应用的四个基本方向[3]
减少数据:许多时候数据量Ⅱ很大,会使处理变得很复杂费力,因此可将数据分成几组可判断的聚类m(m< 假说生成:聚类算法依赖于猜测和假设,在这种情况下,为了推导出数据性质的一些假说,我们可对数据集进行聚类分析。这里使用聚类作为建立假说的方法,可使用其他数据集验证这些假说。
假说检验:在这种情况下,使用聚类分析来验证指定假说的有效性。例如,考虑下面的假说:“国内大公司都投资房地产",验证这个假说是否正确的一种方法是对国内的大公司和有代表性的公司进行聚类分析,假定每个公司用它的规模,在房地产行业的活跃度以及应用研究上成功完成项目的能力来表示,在进行聚类分析后,如果相应于规模大并且能在房地产上投资的公司形成聚类,则聚类分析支持这个假说。
基于分组的预测:在这种情况下,我们对现有数据集进行聚类分析,形成模式的特征,并用特征表示聚类。如果给出一个未知模式,我们可以判定它最可能属于类,并用相应聚类的特征表示。 4、为了完成一个聚类任务,必须遵循下列步骤3
特征选择(featureselection):必须选择合适的特征,尽可能多 204
要目标。因为在有监督分类中,使用之前特征的预处理是必要的。
近邻测度(proximitymeasure):用手定量测量两个特征向量并且没有占支配地位的特征,这是预处理期闻必须要注意的一点。
聚类准则(clusteringcriterion):聚类准则以蕴涵在数据集中的类型为基础,例如,L维空间的致密类特征向量可以根据一个准则判断,但是拉长类却需要另一个准则判断。聚类准则可以用代价函数或其他规则表示
聚类算法(clusteringalgorithm):已经采用近邻测度和聚类准则,这一步涉及到选择特定的算法,用于揭示数据集的聚类结构。
验证结果(validationoftheresults):一且用聚类算法得到结果,就必须验证其正确性,通常使用逼近检验。
结果判定(interpretation oftheresults):在许多情况下,应用领域的专家必须用其他实验证据和分析判定聚类结果,最后做出正确的结论。
5、聚类分析计算方法主要有如下几种
划分法(partitioningmethods):给定一个有N个对象的数据集,利用分裂法构造K个分组,每个分组就代表一个聚类(K 层次法(hierarchicalmethods):这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。根据层次分解的形成方式,该方法可分为“分解"和"合并"两种方案,并且经常与其他方法结合使用进行优化。代表算法有:BIRCH算法17、CURE算法等:
基于密度的方法(density一basedmethods):基于密度的方法是根据密度完成对象的聚类。它是根据邻域对象的密度或者根据某种密度函数生成簇。与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这个方法的指导思想是,只要一个区域中的点的密度大过某个阅值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法,OPTICS算法,ST-DBSCAN算法]等
基于网格的方法(grid-basedmethods):这种方法首先将数据空间量化为有限个单元的网格结构,然后利用网格结构完成聚类,所有的处理都是以单个的单元为对象的。它突出的优点就是处理速度很快,通常这与目标数据库中记录的个数无关,它只与把数据空间分为多少个单元有关。代表算法有:STING算法2),CLIQUE算法、 WAVE-CLUSTER算法等。
基于模型的方法(model-basedmethods):基于模型的方法给
···.下转第206页
上一章:江西气象短信业务系统升级扩容解决方案 下一章:基于小波变换和多模板匹配的室性早搏识别

相关文章

聚类分析中常用相似性测度函数综述 聚类分析算法应用研究 基于空间聚类算法的排水管网风险分析 汽轮机能耗性能的聚类监测方法 近邻半监督聚类算法的MATLAB实现 基于用户日志双向聚类的查询扩展方法 聚类集成理论与其在图像分类中的应用 聚类分析在土地工程能力评价中的应用