
2017年第36卷第3期
传感器与微系统(Transducer andMicrosystemTechnologies)
55
DOI:10.13873/J.10009787 (2017)03-005503
基于数据约减的聚类有效性分析
于晓,李晨,王亚茹
(天津大学电气与自动化工程学院,天津300072)
摘要:聚类分析中利用有效性指标判断数据集的正确类数极易受到噪声数据、类之间分离性以及聚类算法的影响,所确定类数的正确性难以得到保证。为克服这个问题,以文献1」中的数据约减方法为基础,对原数据集和约减后的数据集利用有效性指标进行正确类数判别。实验表明:该方法能增大类之间的分离性,有效判断数据集的最优类数,
关键词:数据约减;方向角;聚类分析;最优类数
中图分类号:TP391.4
文献标识码:A
文章编号:1000-9787(2017)03-0055-03
Cluster validity analysis based on data reduction
YU Xiao, LI Chen, WANG Ya-ru
(School of Electrical Engineering and Automation,Tianjin University,Tianjin 300072,China)
Abstract: Estimating the correct number of clusters by cluster validity index in cluster analysis is highly susceptible to noise data,separation among clusters and clustering algorithm, so the correctness of the estimated number of clusters is difficult to be guaranteed. In order to overcome this problem, validity index is used to estimated number of clusters in original dataset and reduced dataset based on the data reducing method proposed in reference [1], the result demonstrate the method can enhance separation among clusters and effectively determine the optimal number of clusters.
Key words : data reduction; direction angle; cluster analysis; the optimal number of clusters
0引言
目前随着数据挖掘和人工智能技术的不断进步,各行的数据量不断涌现,如文本数据、基因数据、图像数据等,由于聚类方法的无监督性,使得聚类分析在处理海量信息中得到了广泛的应用。近年来,随着聚类理论的不断发展,聚类分析在众多领域也获得了令人满意的效果。但是,作为数据挖掘的重要工具,聚类在发展中还存在许多问题,如聚类中相似性的度量、数据的预处理、聚类有效性等"]。其中,聚类有效性问题中如何确定数据集的最佳类数一直以来都是聚类分析问题中的一大难题,也是众多学者研究的热点问题。因为现有的聚类算法绝大多数都要预先给出数据集的类数,才能对数据集进行有效的聚类分析。为此,众多聚类有效性指标被提出,以此确定数据集的最佳类数。但是由于数据结构的多样性和复杂性,研究表明3],没有哪一种聚类有效性指标可以在任何的情况下对任何的数据集都能取得良好的效果。
本文将基于张开角测度的数据约减方法应用于聚类分析中最佳类数的判别问题。通过优化原有的约简方法,对收稿日期:2016-04-26
*基金项目:国家自然科学基金资助项目(61573251)
数据集进行数据约减,去掉数据集中的噪声数据,然后对约减前后的数据应用聚类方法和有效性指标进行最佳类数判别。实验证明,与原数据集相比,约减后的数据集能够得到
较好的最优类数。 1相关的工作
本节介绍了一个基于张开角的数据约简方法以及两个常用的聚类有效性指标,DBI指标*和Gap统计指标[5],其体说明如下。
1.1张开角测度的数据约减方法
设X=Ixx..,x,是d维空间中包含n个数据向量的集合,;=x2,"",是数据集中任意的第i个数据向量,设顺时针排列的距离x,最近的2d个数据向量为 x,=,,"",,则从x,出发与这些向量相连构成的(2d-1)个向量的张开角依次表示为(x,a),(sa,xa),",(x(2w-1,aa),则x,的平均张开角定义为
Z [x,x,[4ngle((x,,),x,x,))
m(x)血
2d -1
,i=l,.,n
(1)