
·应用技术:
数据挖掘技术在企业决策中的应用
王树广
(山东理工大学网络信息中心
山东涌博
255049
数字技术与应用
要)近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研[摘
究和工程开发等等,这一势头仍将持续发展下去。海量数据的利用成为当前数据处理的关键间题。数据挖据就是在此时应运面生的,如何跟充分的利用企业积累的大量数据,如何让他们发挥跟大的作用,成了企业生存和发展的关键之关链。
业应用
[关健词数据挖据[中图分类号TP
1前言
企业
[文款标识码]A
[文章编号]1007-9416(201002-0079-02
法。数据挖据是一个利用各种分析工具在
数据挖据能帮助企业减少不必要投资的同时提高资金回报。数据挖给企业带来的潜在的投资回报几乎是无止境的。世界范围内具有创新性的公司帮开始采用数帮挖播技术来判断哪些是他们的最有价值客户,重新制定他们的产品推广策略,以用最小的花费得到最好的销售。
2数据挖据掘概述
数据论癌是一种决策支持过程,是一类深层次的数据分析方法。它主要基于 AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性地推理,从中挖据出潜在的模式,预测客户行为,帮助企业的决策者调餐市场策略,减少风险,做出正确的决策。数据挖携的商业应用可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐旅的、未知的或验证已知的规律性,并进一步特其模型化的先进有效的方
请23
W15
X
3
海量数据中发现模型和数据间关系的过
这费模型和关系可以用来微出预测,
程,
数据挖据,还可以称为数据库中的知识发现(Knowledge Discovery in Database, KDD),是从大量数据中提取出可信、新
有效并能被人理解的信息的高级处理过程。
数据挖据是在数据库技术人工
2.1
智能技术,概率与数理统计的基础上发展起来的一种的技术,
2.1.1数据库技术
SQL统治数据库查询语言标准三十多年这一事实本身就与现在IT发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查均转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少,,
只有不协调的两
层,这样的结构就造成了只有程序员能编
W36.
WT6
56
隐含层
带权重Wxy的神经元网络图1
收入>40000元秀
工作时间>5年
否
低风险
图2
万方数据
高风险
高负债
起
香
输山
高风险低风险
一棵简单的决策树
程,老板只能求助于这些“专家”。
2.1.2人工智能技术
人工智能技术的三大难题:“知识获取、知识表示,缺乏常识”直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上,它可以发挥重要作用,这使得它转向数据挖播技术。
2.1.3概率与数理统计
数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从SQL中那可怜的几条汇总函数便可看出。随着数据论摇对查询,归纳对演绎需求的进化,概率与数理统计将获得新的生命力。
2.2数据挖据中最常用的技术:
2.2.1工神经阿络(Artificial Neural Networks)
人工神经网络是仿照生理神经网络结构的非线性预测模型,通过学习进行模式识别。神经网络常用于两类同题:分类和回归。在结构上,可以把一个神经网络划分为输入层,输出层和隐含层,面神经网络的知识体现在网络连接的权值上,是个分布式矩阵结构,神经网络的学习体现在神经网络权值的逐步计算上,为的是防止训练过度和控制调练的速度,如图1所示:
2.2.2决策树(Decision Tree)
决策树方法是利用信息论中的互信息(信息增益)导找数据库中具有最大信息量的属性字段,建文决策树的一个节点,再根据概述性字段的不同取值速立树的分支,在每个分支子集中重复建立树的下层节点和分支过程。决策树的基本组成部分;决策节点,分支和叶子。比如,在贷款申请中,要对申请的风险大小微出判断,为了解决这个间题面建立的一棵决策树,如图2所示:
2.2.3临近搜系方法(NearestNeigh~ bor Method)
临近接索方法将数据集合中每一个记录进行分类的方法。
2.2.4规则推理(RuleInduction) 从统计意义上对数据中的“如果一那么”规则进行寻找和推导。
数字技术与应用
79