您当前的位置:首页>论文资料>基于数据挖掘的试验数据利用研究

基于数据挖掘的试验数据利用研究

资料类别:论文资料

文档格式:PDF电子版

文件大小:2.01 MB

资料语言:中文

更新时间:2024-12-20 15:02:36



推荐标签:

内容简介

基于数据挖掘的试验数据利用研究 数事热本与变用
基于数据挖掘的试验数据利用研究
胡欣杰1张鹏霄2王琳1
(1.装备学院信息装备系北京101416;2.中国人民解放军63985部队北京100072)
应用研究
摘要:本文针对设备在试验过程中部会产生并积累大量的原始数据、过程数据及数据类型的复杂性等同题,提出采用数据挖据的方法对试验数据进行知识和信息的挖抵,给出了试验数据挖据流程及采用决策树方法进行数据挖据实例,对试验数据的有效利用起到了较好的支撑作用
关键调:数据数据挖据决策构
中图分类号:TP311.13;F724.6 1问题的提出
文献标识码:A
每种设备在试验过程都会产生并积累大量的原始数据、过程数据、结果数据、分析数据、报告数据等。另外对于复杂的设备试验通常具有结构复杂、测量参数多、测量设备种类繁杂,试验资源分散试验流程复杂、时闻跨度大及试验数据共享围难等特点,因此其数据管理、分析与利用就较困难。根据试验设备的类型不同,其试验数据的文件类型和数据格式也不尽相同,例如数据格式有数字,模拟,音频和视频等,文件类型包括文本文件、格式文件、压缩文件、非压缩文件等,试验人员往往以手动的形式对数据进行分类、筛选和整理,由于这种手工操作可能引起数据的丢失或对进行数据筛选过程中出现错误,造成了宝贵的试验数据的丢失。试验数据的存储目前多数采用磁盘存储,或建立数据管理系统将数据存储到数据库中,如何有效的利用这些数据,从纷杂的数据中提取出有用的信息,数
据挖掘技术能解决这些问题。 2数据挖据技术
数据挖据技术是多学科交叉的新兴技术,随着数据的大量积累以及市场竞争对信息与知识的迫切需求,数据挖掘技术迅速发展,逐渐成为人们关注的焦点。目前主流的数据挖据方法有CRISP-DM,SEMMA和IBM等,常用的数据挖掘工具有SQLServer2005 Data Mining,SPSS/Clementine等
数据挖掘技术实现数据采集,数据清洗、规则归纳、模式识别、数据/结果分析及评估、可视化输出全过程,可分成业务理解、数据理解、数据准备、建模和模型评估儿个步骤。数据挖揭流程如图1所示。整个数据挖掘过程可形成闭环结构,在数据挖掘过程也是一个不断送代的过程,直至满足业务需求为止。
业务理解是初始阶段,主要集中在对任务目标的理解,以及从业务角度对客户需求的理解,并将这些理解转化为一种数据挖掘的定义和为了达到目标的初步方案。
数据理解阶段包括收集数据,熟悉数据和检测数据的质量,对数据有初步的理解,探测数据中比较有用的数据子集,形成对潜在信息的各种假设。
数据准备阶段包括从原始复杂粗糙的数据中构建最终数据集的所有工作,包括数据制表、记录,数据变量的选择和转换,以及为适应建模工具面进行的数据清理等,该阶段可能进行多次。
建模是指通过建模校准参数,建模方法有多种且建模方法对数据格式有具体的要求,
模型评估是对构建的多个模型进行评估,确定是否达到了任务的目标,建模过程中是否充分的注意和考虑了重要的问题。这一阶段结束后,数据挖掘结果基本满足任务要求。
模型发布是将数据信息以一种用户能够使用的方式组织和呈现根据需求的不同,模型发布可以为一份报告或复杂的统计分析数据等。
数据挖据过程中一个重要的组成部分是算法,目前数据挖掘的算法相对比较成熟,所不同的是算法的实现和对性能的优化,根据
业务理解
+数据理据
一数据准各
建模
数据控照
+模型评估
图1数据挖掘流程
+模型发有
文章缩号:1007-9416(2014)04-0113-01
实际问题选择优化的算法是非常重要的。常用的算法有:决策树算法、神经网络算法,基因算法、贝叶斯网络方法,支持向量机等。 3试验数据挖据掘分析
试验数据挖掘包括数据准备,数据知识和信息挖掘两个阶段。 3.1数据准备
首先选择数据。收集原始的试验数据,将大量的试验数据按照类型分类、汇总,并将数据存储在数据库或数据仓库中,并从中选择出适用于数据挖据应用的数据,
其次预处理数据。研究试验原始数据的质量,去掉不合适的数据或数据类型,为进一步进行的数据分析、数据挖掘作准备。
最后数据的转换。将准备好的试验数据按照数据挖掘模型进行转换,使其转换成一个数据分析模型。
3.2试验数据的知识和信息的挖据
作为数据挖掘技术的核心,知识与信息的挖掘是非常重要的,主要由以下几部分构成:
(1)确定试验数据挖掘的任务类型,确定系统要实现的功能及任务。(2)选择合适的数据挖掘工具、数据挖据算法及技术。建立一个
适合挖掘算法的分析模型,选择数据挖掘工具和数据挖掘算法,搭建数据挖掘平台,本系统使用SPSS工具
(3)挖掘数据,用选定的算法或算法组合在平台中进行反复的送代和搜索,从数据集合中抽取出隐藏的、有用的信息,并以图、表等方式进行表示出来,本系统使用决策树算法实现数据的挖掘。
3.3采用决策树算法对试验数据挖据
决策树算法是一种常用的数据挖掘算法,该方法是从机器学习领域中逐渐发展起来的一种分类函数逼近方法。一个决策树由一个根结点、一系列内部结点及终结点所组成,每一结点只有一个父结点,但可有两个或多个子结点,形成一个分类的树形结构,在树结构的每一分叉结点处,进行不同的选择实现进一步的细分类。决策树是仅以实例为基础进行归纳和运算,不依赖经验知识,也不用对数据分布进行假设,决策树学习的基本算法是贪心算法,一般可采用自顶向下的递归方式构造决策树,其结构简单并可生成易于解译的分类判别准则",使用决策树进行试验数据挖掘的步骤如下:
首先选择试验数据样本的一个子集以形成决策树,之后以选定的试验数据样本为对象逐级推理出用树型结构表示的分类决策集合,如果此树没有为所有的数据分析结构给出一个正确的有效的数据答案,将例外情况加人到树中,不断重复这一过程直到发现正确的决定集。最终形成一棵树,每一片叶子代表一个类名,每个节点描述一个属性,节点的每一个分支对应于该属性的每一个数据值,最
终得到试验数据的分析结果。 4结语
随着试验的种类的不断增加,试验数据成快速增长的趋势,对数据的管理及有效利用问题是一个迫切需要解决的问题,采用数据挖掘算法和相应的工具能较好地解决数据有效利用问题,未来数据挖掘技术在数据管理和数据信息的利用方面会发挥越来越大的作用。参考文献
[1]王克宇.陈文伟.普泽文.数据采掘工具及应用[J].计算机世界 2007.6:3435.
[2]王宏.数据挖据在网络营销中的应用[J].计算机应用与软件,2006. 6:4954.
113
上一章:电子邮件的认证与安全 下一章:面向临床检验信息系统数据挖掘的因子分析

相关文章

基于VB和数据库技术的阀门三维设计及试验仿真系统的研究_刘世辉 基于试验数据的超级电容建模方法 基于数据挖掘技术的数据显示处理器开发研究 基于云模型的数据挖掘技术研究 基于数据挖掘的高速网络入侵检测系统的研究 基于数据仓库技术的应用研究 基于数学规划的数据挖掘分类算法研究及应用 基于数据挖掘的个性化高校选课推荐算法研究