您当前的位置:首页>论文资料>基于属性依赖度计算和PCA的C4.5算法

基于属性依赖度计算和PCA的C4.5算法

资料类别:论文资料

文档格式:PDF电子版

文件大小:257.12 KB

资料语言:中文

更新时间:2025-01-14 10:58:47



推荐标签:

内容简介

基于属性依赖度计算和PCA的C4.5算法 2017年第36卷第1期
传感器与微系统(Transducer and Microsystem Technologies)
131
DOI:10.13873/J.1000-9787(2017)01013104
的C4.5算法
基于属性依赖度计算和PCA自
黄秀霞,孙力
(江南大学物联网工程学院,江苏无锡214112)
摘要:针对C4.5算法繁多的对数运算、无关属性地干扰和属性相关性的影响等间题,提出了基于属性依赖度计算和主成分分析(PCA)的C4.5算法。根据等价无穷小的原理简化运算公式;用属性依赖度的计算并借鉴PCA算法的压缩原理来处理属性相关性问题;引入了“平均波动率"和"应用权重"两个新概念,得到一个新的属性选择度量。用学生综合成绩的评定工作进行应用分析,并用UCI数据集进行性能比较,
实验表明:改进后算法的评定结果更科学,并且分类更准确,运算效率更高。关键词:C4.5算法;属性依赖度计算;主成分分析;平均波动率;应用权重
中图分类号:TP311.5
文献标识码:A
文章编号:1000-9787(2017)01-0131-04
C4.5algorithmbasedonattributedependency
calculationandPCA
HUANG Xiu-xia,SUN Li
(School of the Internet of Things Engineering,Jiangnan University,Wuxi 214112,China)
Abstract: Aiming at problem of C4. 5 algorithm such as huge amount of logarithm operations, irelevant attributes interference and attribute correlation effect,propose C4. 5 algorithm based on attribute dependency calculation and PCA. There are some enhancement strategies which includes simplified calculation formula according to principle of equivalent infinitesimal, deal with problem of attribute correlation through calculation of the dependency for attribute and reference the compression principle of principal component analysis( PCA) algorithm. While introduce two new concepts,"average wolatility"and"application weight"to get a new metric of attribute selection. With the evaluation work of the students' comprehensive performance for application analysis, and use UCI data sets to compare performance. Experimental results show that the improved algorithm evaluation results are more scientific, more accurate and higher computing efficiency than before.
Key words: C4. 5 algorithm; calculation of dependency for attribute; principal component analysis ( PCA) ; average volatility; application weight
阜0
C4.5算法是QuinlanJR在ID3算法的基础上提出的一种算法1],是ID3算法的一种延伸和改进,又称为统计分类器。C4.5算法在各个领域都有广泛应用,例如用C4.5 算法对大学讲师的绩效进行评估[2],根据学生的入学成绩预测学生的在校表现(3),或将C4.5算法用于银行的商业决策[4]等等。
近年来,有不少对于C4.5算法改进的研究工作,如 HarsitiTb等人提出了将C4.5分类算法与传统模糊推理法(Fuzzy-Manidani)相结合的一种决策树分类算法[5];还有人对C4.5算法中信息增益率的计算方式进行改进("]还有将C4.5算法信息增益率的计算用属性依赖度代替的改进(7]等等。
收稿日期:2016-0224
针对C4.5算法的计算复杂、属性间相关性的影响以及可能出现的无关属性的干扰等间题,本文提出了一种新的属性选择度量的改进算法。该算法依据属性依赖度的计算[8]和主成分分析(principal component analysis,PCA)算法
用权重”。将改进后的算法用学生综合成绩的评定工作进行分析,并与C4.5算法和文献[7]中的算法进行比较,实验表明新的算法具有更合理的评定结果,并且运算更加简单。
1
C4.5算法
C4.5算法(10]的核心的是ID3算法,是针对ID3算法
中不具备对连续型属性的处理策略的缺点以及信息增益度量偏向于选择具有大量值的属性而进行的优化改进。ID3
上一章:金属微粉体脉冲输送的微特性实验 下一章:拉杆式压弯聚焦镜组件线性与接触非线性方法的比较

相关文章

基于智能计算的图像检索算法研究 基于贪心改进算法的云计算任务调度 基于消费人群属性和分类的汽车安全性影响力分析 基于贝叶斯决策的网格计算资源分配算法 基于PSO和属性约减的模糊神经网络机床故障诊断 GB/T 38984.1-2020 基于属性的产品信息通用规范第1部分∶原则和方法 GB/T 38984.1-2020 基于属性的产品信息通用规范第1部分∶原则和方法 GB/T 38984.1-2020 基于属性的产品信息通用规范 第1部分:原则和方法