
数字执本与率用
浅析数据挖掘技术
刘毅娟何旸雷鸣刘晓丽
(华北理工大学冀唐学院河北唐山063000)
学术论坛
摘要:在大数据时代每时母刻的信息量正爆炸式增长,组是这要数据并不能直接为人们的经济生活服务,如何利用达要海量数据来为经济生活服务是许多研究员一直致力探索的领域。数据挖据技水的兴超与发展正是在数据需求的推动下产生本文对数据挖据技术的定义与挖据步骤进行了简单的介绍,通过数据挖据技术,可以从海量数据中分析提取出对人们有用的信息,服务生产生活
关键词:数据挖抵挖抵步票分析
中图分类号:TP311.13
文献标识码:A
数据挖掘即DataMining,是近年来计算机应用学科门类中-项重要课题,并将其作为一门重要的研究方向在发展。目前,数据挖掘是一门集数据库技术,机器学习、统计方法等多种学科内容重叠交支组合而成的新型学科,它已不再是一门单门类的学科了。同时,越来越多的商家意识到,实施数据挖掘可以为企业带来更多的潜在的商机,需要是发明之母,这些商机需求更是加速了这一学科的蓬勃发展。
1数据挖掘的定义
数据挖据来源于知识发现(KnowledgeDiscoveryin Database,缩写KDD)。1989年在美国底特律举行了首届KDD国际学术会议,KDD在此会议上得到了各界人士的认可,时隔七年,在加拿大举行了一场国际会议,该会议主要是关于首届知识发现和数据挖掘(DataMining,DM),在此国际会议上,专家们将数据库中的数据形象的比作为矿床,由此一来,数据挖掘开始在全世界范围内得到了传播。根据具体实际来看,数据挖据并非是KDD,面只是它的一个关键的核心步骤。但是这四个字无论是在媒体行业还是产业界或者数据库研究领域都比数据库中的只是发现要更加让人们所能接受和认知,所以为了习惯的方便以及从抽象的定义来看,数据挖掘就等于是KDD了。
2数据挖掘的重要性
随着数字时代的到来,人们学习、工作和生活越来越多的依赖信息技术,每时每刻都有大量的数据产生,去饭店,先上网查询哪家的好吃,买衣服,先查询邸家的款式好看,即使在路上也会通过GPS 寻找最优的路径等等。这些日常的繁杂的小信息已经越来越多的引起广大商家的注意,聪明的商家往往能从这些信息中发现用户的喜好,消费规律,基至他们可以知道你下班喜欢走邮条路。但是,这些信息往往隐巅其中,不能直接为商家所用,错误的信息基至可能造成决策失误,产生巨大的经济损失。此时,数据挖掘的重要性被提升到了前所未有的高度,因为它能够帮助企业准确的挖掘出对其有价
值的信息和知识,服务于决策,提升其核心竞争力。 3数据挖据的基本过程
根据数据挖掘的处理方法将其分为大致三个处理阶段第一个阶段即初始阶段为数据的准备阶段,第二个阶段为寻找潜在有价值数据的过程即数据的挖掘阶段,第三个阶段为在提取到有价值数据后,即对结果的解释和评价。
3.1数据清洗
数据的清洗简言之就是使对数据进行某些处理,这些处理是对提取的数据中那些不完整的数据进行推导计算从而填补其缺省,清楚数据中的噪声以及对异常的数据进行修正,对不完整的数据进行补充完整还有包括对重复的数据进行清除,这数据的清洗不是一个简单的过程,它需要专业人员对数据挖据领域的知识能有一个准确的判断但是在清洗数据的过程中方法也很重要,一定要选择恰当的方式来处理,作用就是清除数据噪声和与挖掘主题无关的数据。
3.2数据集成
为了使数据在后续处理阶段能够顺利进行,需要将各种不同的收移日期:2015-1513
文章编号:1007-9416(2015)06-0215-01
数据进行物理或者逻辑上的组合。对数据的有机集合也有一定的要求,它要求由于某些原因造成数据在格式上不一致时能够有效的进行处理,作用就是将赖在多数据源中的相关数据进行组合集中。
3.3数据选择
数据的选择是根据任务目标来完成的,即从集成完成的大量数据信息中选择与任务目标相关的数据集,并将这些数据信息提取,从面找到那些与任务相对应的操作数据。
3.4数据变换
数据的变换简言之就是将数据由一种类型转换为另一种不同的类型,从面得到满足被挖掘数据的形式,比如,在神经网路计算领域中,需要的是连续性数据,这时如果得到的是离散型的数据,那么就可以将这些离散型数据转换为连续性的数据,再比如为了进行符号归纳的操作,可以进行上述过程的反过程,即将连续性数据转换为离散型数据。数据变换的作用不仅限于上面的例子,它还有一个重要的作用就是挖掘出有用数据的某一特征或者变量来对数据进行表示,即对数据降维处理。
3.5数据挖据
当前,数据挖掘方法有很多种,仅从统计学这一门类学科来看,所使用的挖掘方法就有很多种,例如回归分析,聚类分析、时间序列分析等等。利用上面的方法可以找到那些有问题的数据,再利用相应的模型对这些问题数据进行说明,从面发现有价值的信息,这种分析方法与前面的统计学所用的方法在本质上完全不一样,它是种新的技术方法,在处理数据的时候采用了都是计算机逻辑和神经网络领域的知识,例如遗传算法和人工神经网络以及关联规则和决策树等
3.6模式评估
在对数据发现的模式进行度量和识别时,要采用一些成熟的方法和手段,只有这样才可以对数据进行评估以确认这些数据是否是有效的和可以运用的,简言之就是根据自身的兴趣来评判这些知识是否属于有价值的模式,
3.7知识表示
通过数据挖掘技术找到了相应的知识,但是这些知识还不能被用户所认识和理解,这时就要对其进行解释并转换成能被用户理解的知识,这一过程叫做知识的可视化。一般情况下,将知识的应用归为两种不同的方法,其一是知识的直接应用,从而为决策提供支持,因为这种发现的知识对结果的描述很清楚了,所以可以直接运用了,第二种方法就不能直接应用了,这时如果直接将发现的知识进行运用就可能出现一系列的问题了,对此就要将新发现的知识进行进一步的研究和优化处理了。
数据挖掘不是一次性就能完成的,它可能需要多次循环的操作才能满足要求,任何一个步骤的执行都将影响整个过程,无论是邸一步出现了错误都要返回到这一步之前处理操作,并继续下一步的过程。
参考文献
[1JDavid Hand,Heikk1Mannila,PadhraicSmy th,张锡奎,丽.宋俊等译.数据挖超累理[M].北京:机械工业出版社,2003.
作者简介:刘毅娟(1983一),女,河北唐山人,本科,助理工程师,于华北理工大学冀唐学院工作,研究方向:计算机技术与数据安全
215