您当前的位置:首页>论文资料>支持数据挖掘算法选择的数据集特征提取研究

支持数据挖掘算法选择的数据集特征提取研究

资料类别:论文资料

文档格式:PDF电子版

文件大小:339.35 KB

资料语言:中文

更新时间:2024-12-20 15:05:43



推荐标签:

内容简介

支持数据挖掘算法选择的数据集特征提取研究 ·款件设计开发
数字技术与应用
支持数据挖掘算法选择的数据集特征提取研究
果竹
(西南科技大学四川烯阳
621010)
摘要:普通用户选择合适的算法进行数据挖抵是一项困难的工作。本研究提出了一种根据数据集特征判断数据来相似度,从而根据算法在相似数据集上的性能选择数据挖报算法的方法。
关键词:数据挖据摄
要数据集特征算法选择
中图分类号:TP301.6
文献标识码:A
文章编号:1007-9416(2011)04-0117-04
DatasetCharacterExtractingResearchtoSupport
Data Mining Algorithms Selection
Abstract; It is difficult for individuals to choose appropriate algorithms for data mining. This paper presents a paradigm t hat extracts similarity of data set based on its characters, leading to available algorithms according to characters on similar d atasets.
Keywords: data mining: dataset character; algorithm selection
1.引言
随着数据挖掘技术的不断发展,数据挖掘软件逐步成熟,数据挖掘成果日益丰富,并运用到管理决策,经济发展趋势分析等多方面。与此同时,由于计算机运算能力的提高、计算机存储量的数量级增加,个人已经初步具备了进行数据挖掘所需的数据源和高运算能力的电脑。因此各行各业的人都希望通过运用数据挖掘软件对自己的数据进行发掘分析,从而获得有效的信息。
但是由于数据挖掘算法多达上千种,它们适用于不同的数据挖掘类型,对不间的数据集挖掘效果也有很大差异。对于非数据挖掘专家的普通用户而言,选择适合自己数据集的算法非常困难。国内外专家的大量实验已经验证,同一个算法在相似数据集上的挖掘效果相似。而对很多算法的效果评估是基于各种国际标准数据集的。如果研究者能够知道自已的数据集与标准数集的相似程度,并选择在相似的标准数据集上表现良好的算法来对自已的数据集进行挖掘,将更容易获得满意的挖掘效果。
因此,数据集的相似度判断使成为了一个关键点。数据集的相似不应该是简单的内容形式相似,比如同样是文本数据,因为同样内容形式的数据集可能在不同类型数据项的分布上有着巨大区别。数据集特征是指能反应该数据集白身数据统计特点的一些指标,是对整个数据集而言,用于确定数据集的整体特点。因此根据数据集特征来比较数据集之间的相似度,将具有较高的准确度。
2、数据集特征概述
数据集特征应该是能反应数据集自身的数据特点的一些指标。
这个特征有别于用于数据挖掘中的分类特征。数据挖掘过程中的特征提取和选择是对数据集的内容面育,分析对象是数据集中的属性和记录值,提取的特征用以为各条记录进行分类。而数据集特征是对整个数据集而言,分析的对象虽然也关系具体的属性和记录,但是提取的特征是这些属性和记录的整体性描述,用于确定数据集的整体特点。
数据集特征其实是元学习的一个很小的领城数据集特征可以分为几个不同的种类:包括标准统计和加强统计,标准统计描述的是数据集的性质和数据集中变量的性质。加强统计分为两个方面,一个是对表示数据集值域的数值属性空间特点的描述,另一个是对数据集的名称属性特点的措述。国外已经有很多学者,机构从事数据集特征提取研究,并提出了多种特征提取的方法和特征度量,如时间序列的长度(LEN),前5个自相关的评价绝对值(MEAN COR),NMSE等。
3、数据集特征提取及比对 3.1特征度量选择标准
为了支持数据挖掘算法的选择,应该选取对数据挖掘效果影响较明显的特征度量来进行提取。选择的数据集特征要符合数据挖据功能的特点。因为数据集的不同特点对于不同功能挖掘算法的效果影响程度是不同的。如记录数、属性数会影响分类的速度和精度,离群点分布会影响案类的效果等。分析了各种度量对数据挖掘效果的影响程度,确定特征的提取应该侧重以下几个方面度量:数据集的大小,数据的中心趋势,数据集属性分布,属性的离散程度和不同属
表17个数据集特征列表
Table 1 The characters of the 7 datasets
特征指标
数据集 anneal Cmc Credit
Haberman hayes-roth Iris
Postoperative 万方数据
quantity_of_examples
2.902003 3.168203 2.838849 2.485721 2.120574 2.176091 1.954243
centre tendency 2.542208 1.25285 2.317317 1.450893 0.293563 0.539536 1.039118
0.8461 0.8 0.625 0.5 0.2 0.2 0.8889
prop_missing_values
0.32793791 0
0.00625
0 0 0
0.00315126
avg._joint entropy 1.9643873 2.6390864 0.5793816 1.2497175 2.7953090 0.9381641 0.8549459
avg_mutual information 0.5739855 0.2828375 1.0937983 0.8639140 0.2187847 0.9276495 1.0698125
Digitaltechnology and application数字技术与应用
117
上一章:数据挖掘在广播设备运行和维护中的应用 下一章:基于数据挖掘的成绩分析系统

相关文章

基于改进光谱特征拟合算法的高光谱数据矿物信息提取 财经新闻挖掘系统中特征选择算法研究 一种添加历史数据的近红外光谱特征提取方法研究 激光诱导击穿光谱数据特征自动提取方法研究 EEMD 近似熵和支持向量机的管道泄漏特征向量提取研究 基于小波分解的光谱特征提取算法研究 基于光谱与空间特征结合的改进高光谱数据分类算法 CY/T 128-2015 印刷技术 匹配颜色特征化数据集的印刷系统调整方法