您当前的位置:首页>论文资料>数据挖掘概念综述

数据挖掘概念综述

资料类别:论文资料

文档格式:PDF电子版

文件大小:2.24 MB

资料语言:中文

更新时间:2024-12-20 15:37:52



推荐标签:

内容简介

数据挖掘概念综述 数学执本与率用
数据挖掘概念综述
黄翠萍
(漳州科技职业学院福建漳州363200)
学术论坛
摘要:数据范据技水是新兴的、重要的、具有广阔应用前录和富有挑战性的综合学科。本文首先介绍了数据挖据的历史、概念,阐述了数据挖据的步骤,并对数据挖抵的特点、功能、模式进行了综述,最后以发现任务来进行总结。
关键词:数据挖抵概念任务发现
中图分类号:TP311.13
文献标识码:A
数据挖掘又称从数据库中知识发现、分析数据、融合数据及作支持决策。从1989年到现在,KDD的定义随着人们研究的不断深人也在不断完善,目前比较公认的定义是Fayyad等给出的:KDD是从数据集中识别出高效,新奇、潜在有用的信息表示的过程处理。从概念我们得出,数据挖据可具体描述为从海量的具有不完整性、歧义、模棱两可的、任意抽取的数据中,提取内在、不显而易见、可蕴涵着对社会生活有用的信息和知识发现的过程。专家学者称海量的初始数据为知识形成的源泉,好像从油田中采石油一样。海量的初始数据可以是关系数据库中结构化,同时也可以是文字、图像、声音半结构化的数据,也可能是分布在云上的知识异构型数据。知识发现运用数学的数理统计,也可以是人工智能、机器学习等,可以推断分析,也可以是归纳演绎。知识发现广泛应用于管理信息系统、数据库查询设计,支持决策系统、过程适时控制中,最根本的是适用于数据本身的维护。所以,数据挖掘是综合的、交叉学科,它汇聚了不同专业领域的专家学者,特别是数据库,机器学习、人工智能、数理统计、专家系统、数值分析等方面的学者和从事计算机技术的专业人员。 1数据挖掘的特点及功能
1.1数据挖据的特点
数据挖掘具有如下几个特点,当然,这些特点与数据挖掘要处理的数据和目的是密切相关的。
(1)处理的数据规模十分巨大;
(2)用户随时随地查询,达不到用户的查询要求:
(3)必须对海量大数据作出分析,为需要提供理论支持:
(4)主要基于大样本的统计规律,其发现的规则不一定适用于所有数据。
1.2数据挖掘的功能
要清楚数据挖掘的功能,就要很深刻的理解知识发现,从范围大小来说知识可分为:同类性知识,反映相同类别事物相同性质的知识,特征性知识,不同事物间以不同的特征为区分点的知识,差别性知识,不同事物之间属性差别的知识体现,关系性知识,事物之间相互依赖或事物之间具有某中关系的知识,预见性知识,根据也有的数据信息推测预见得出的知识,异常知识,事物打破常规呈异常现象的知识。我们可以利用相关的方法对事物从不同的角度、不同的层面进行知识的发现,把发现的知识广泛应用于现代生产生活中。例如,从一家网上书城网站的数据库中,我们可以得到关联规则关系性知识可能是“买人工智能图书和数据挖据图书的顾客十有八九也实机器学习方面的图书”,也可能是“实图书的顾客几乎都用网上银行进行支付,这些关系对于网站开发和制定网络营销等是非常有用的。常见的知识发现方法有分类,聚类、决策树、不确定性处理等。总结起来,数据挖据有如下个功能:预测/验证功能:预测,验证功能指用数据库的若干已知字段预测或验证其他未知字段值。
文章缩编号:1007-9416(2014)01-0193-03
预测方法有数理统计、范式识别和树预测方法,线性回归等。描述功能:描述功能指找到描述数据的可理解模式。描述方法包括以下几种:数据分类、回归分析、镁聚、概括、构造依赖模式、变化和偏差分
析、模式发现、路径发现等。 2实现数据挖掘的步骤
KDD包括以下步骤:
(1)数据准备。KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果,但往往不适合直接对大数据进行数据的分析挖掘,需要着手对大数据做好准备工作,相关数据的选择、净化(消除噪音、元余)推断(推断数据)、类型转换、数据缩减(减少数据量)。如果KDD的对象是数据仓库,那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是KDD的第一个步骤,也是比较重要的一个步骤。数据准备是否做好将影响KDD的有效性和发生效率。
(2)数据挖掘。数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、租集、关联规则、神经网络、遗传算法等。数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。
(3)评估、解释模式模型。上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。
(4)巩固知识。用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。
(5)运用知识。发现知识是为了运用,如何使知识能被运用也是 KDD的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持,另一种是要求对新的数据运用知识,由此可能产生新的问题,面需要对知识做进一步的优化
3数据挖掘的模式
数据挖掘的任务是从数据中发现模式。模式是一个用语言L来表示的一个表达式E,它可用来描述数据集F中数据的特性,E所描述的数据是集合F的一个子集FE,E作为一个模式要求它比列举数据子集FE中所有元素的描述方法简单。例如,“如果成绩在81~90之间,则成绩优良*可称为一个模式,面“如果成绩为81,82、83、84,85 86.87.8889或90,则成绩优良"就不能称之为一个模式。
作者简介:黄琴萍(1984),女,项士,漳州科技职业学院教师,研究方向:企业信息化,
193
上一章:LA MOST-D R1中激变变星光谱的数据挖掘研究 下一章:WSN网络中一种新的关联规则数据挖掘算法

相关文章

GB/T 25068.1-2020 信息技术安全技术网络安全第1部分∶综述和概念 GB/T 25068.1-2020 信息技术 安全技术 网络安全 第1部分:综述和概念 数据挖掘研究综述 信息栅格环境下美军数据策略研究综述 液压挖掘机节能系统与控制策略综述 中医古籍数据库数字化建设发展综述 基于点云数据的逆向工程技术研究综述 基于数据采集的能源计量信息系统设计与架构综述