您当前的位置:首页>论文资料>聚类分析中常用相似性测度函数综述

聚类分析中常用相似性测度函数综述

资料类别:论文资料

文档格式:PDF电子版

文件大小:1.9 MB

资料语言:中文

更新时间:2024-11-29 11:44:43



推荐标签:

内容简介

聚类分析中常用相似性测度函数综述 数事本与率用
聚类分析中常用相似性测度函数综述
李志伟
(苏州高等职业技术学校江苏苏州215000)
学术论坛
摘要:聚类分析是一种无监督的机器季习方法,常用于数据挖据和模式识别领域中。聚类分析中如何度量样本对象之的相仪性一直是模式识别关注的热点。相似性测度函数的选取对于对象或模式的划分归届影响较大。本文通过对聚类分新中常用测度函数公式进行总结,并分析各自特点、优缺点和异同,给模式识别、数据挖据领用中的研究人员提供更多选择
关键词聚类分析相似性测度函数
中图分类号:TP75 1简介
文献标识码:A
文章编号:1007-9416(2016)11-0233-01
距离是先将各个分量进行处理.由于标准化变量的数学期望为0.方差
聚类分析是通过计算样本被此间的距离(欧式距离,马式距离,夹角余弦距离等)来估计样本所属类别。它是一种无监督的机器学习方法,常被用于机器学习,模式识别,数据挖据等领域中。通常我们在做分类实验过程中,往往遇到不同样本间的相似性度量(Similarity Measurement)选择问题,这一间题其实也是模式识别研究中最基本问题,因此,如何描述、判断样本之间或类与类之闻的相似程度变得十分重要。对于不同的数据类型,相似性的度量也不同。所以在相似性测度函数选择上需要慎重。如数值型数据中对象间的相似度是指它们在欧氏空闻中的互邻程度,而对分类型数据来说,对象间的相似度是则是跟相同属性的个数有关。更重要的是,不同的相似性测度函数对于同一算法的聚类结果往往不同,有的甚至差别很大。有必要根据输人数据的特征,选择一种合适的相似性度量方法。本文的目的就是对聚类中常用的相似性度量公式做一个总结。希望对模式识别、数
据挖据领域中或聚类分析科研人员提供带助。 2常用相似性测度函数
度量聚类样本点之间的亲疏程度常用函数有: 2.1 欧氏距离(Euclidean Distance)
欧氏距离源自欧氏空间中两点间的距离,使用较多,设X,X为两个n维模式样本,且X=x,X,"xJ",X,=[x,X"xJ则对于n维数据(模式)面言,欧式距离定义为:
D(x,x,=x,x,[(xux)++(xnx,))/2
D越小,表示样本越相似。但是客特征向量对应的维上应当是相同的物理量,某些维上物理量单位发生变化,会导致出现不同的聚类结果。对不同的单位可对数据特征标准化处理,能够解决这一单位相关的问题,
2.2曼哈领距离(ManhattanDistance)
曼哈顿距离也称城市街区距离(CityBlock distance)。设n维向量X-x,"x表示模式向量,M-[m,,m表示均值向量,C表示该类模式总体的协方差矩阵。则C=E(X-M)(X-M)T,马氏距离的平方表达式为D=(X-M)TC-1(X-M),该距离表示的各分量上模式样本到均值的距离。也就是在各维上模式的分散情况,其优点是排除了模式样本之间的相关影响,
2.3 切北雪夫距离(Chebyshev Distance)
国际象棋中走动步数最少寻优的度量方法类似于切比雪夫距离。n维向量X,和X,之闻的切比雪夫距离定义为:
D,=max(Ix,x,),其中i=1,2, .,n
2.4闵可夫斯基矩离(Minkowski Distance)
闵氏距离不是一种距离,而是一组距离的定义。n维模式样本向量X,X之间的闵氏距离表示为:D(X,X,)=[Ix-xPF" 公式中,x,x,分别表示X,X的第k个分量。D是一个变参数。当 D=1时,就是曼哈题距离,当D-2时,就是欧氏距离,当P→时,就是切比雪夫距离。闵氏距离可以表示一类距离。所以闵氏距离的缺点包括曼哈顿距离,欧氏距离和切比雪夫距离的缺点。
2.5标准化欧氏距离 (Standardized Euclidean distance)
该距离是针对欧氏距离的缺点而作的一种改进方案。标准欧氏收移日期:2016-10-09
为1,所以在得出样本集X的均值为M,标准差为S的情况下,X的"标准化变量“(standardization)可表示为:2*_二M
。经推导,就可以得到
下-)
两个n维向量X,X间的标准化欧氏距离公式:d,=2
台(8
2.6 马氏距离 (Mahalanobis Distance)
若样本集X.协方差矩阵S.均值μ,则X到μ的马氏距离可表示为: D(X) = y(X μ)°s-(X μ)
样本X与X之间的马氏距离为: D(X,X,)= J(X, - X,)s-(X, X,)
若S是单位矩阵,则该距离就变成了欧氏距离.若S是对角矩阵,则变成了标准化欧氏距离。马氏距离的最大特点是与量纲无关。
2.7夹角余弦(Cosine)
来角余弦在儿何学中可用于衡量向量的方向,而在聚类分析中可用于测度样本之间的相似性。则两个n维样本X,X之间的夹角余弦可定义为:
cos(6) =
X,DX
IXX
来角余的取值范围为一1,11-值越大表示两个向量的来角越小,样本之间相似度越高反之相似度较低。
2.8汉明距离(Hamming distance)
样本X,与X之间的汉明距离定义为:其中一个变为另外一个所需要作的最小替换次数。汉明距离应用于信息编码中,使得最小化的距离可以增强容错的能力。
2.9相关系数(Correlation coefficient) 对象X,Y之间的相关系数定义为:
P =
Cov(X,Y)_ E(X EX)(YEY) JD(X)D(Y)
JD(X)JD(Y)
相关系数的取值范围是[-1,1]。其绝对值越大,则表明X与Y相关度越高。当相关系数取1或一1时,分别表示X与Y之间为正相关或负相关。
2.10信息摘(InfomationEntropy)
信息摘并不是一种相似性度量,但它却能用于分析样本分布松散的情况。样本集X的信息筛的定义如下;Entropy(X)=之-p.log:P
公式中,D表示样本集X的分类数,D表示X中第类元素出现的概率。信息摘就越大,表明样本分布越分散,否则表明样本分布越集中。 3结语
相似性的度量方法很多,有的用于专门领域,也有的适用于特定类型的数据,因此如何描述对象间相似性成为聚类的重要问题。本文对聚类分析中常用相似性测度函数公式进行综述,并解析各测度函数的优缺点、异同,为模式识别、数据挖掘或智能计算中涉及模式对象相似性测度方法提供帮助。至于采用何种指标特征变量精确刻画样本的性质及相似性测度方法需要更深人的学习研究。
作者篇介:李志伟(1987一),男,河南夏邑人,研究生,中级讲师,研究方向:人工智能与模式识列、图像处理
233
万方数据
上一章:基于有限元仿真的大屏幕超薄手机抗跌落研究 下一章:基于数字技术的古典名画学习与创作系统的开发与研究

相关文章

一种基于多特征融合的新型光谱相似性测度 聚类综述 聚类分析在土地工程能力评价中的应用 复变函数与常用变换 Copula函数理论在多变量水文分析计算中的应用研究 双测度的稳定性分析 混凝土中钢筋非均匀锈蚀的余弦函数模型的建立与理论分析 变异函数分析在勘探网度优化中的应用——以某铜矿为例