
2017年第36卷第1期
传感器与微系统(Transducer and Microsystem Technologies)
131
DOI:10.13873/J.1000-9787(2017)01013104
的C4.5算法
基于属性依赖度计算和PCA自
黄秀霞,孙力
(江南大学物联网工程学院,江苏无锡214112)
摘要:针对C4.5算法繁多的对数运算、无关属性地干扰和属性相关性的影响等间题,提出了基于属性依赖度计算和主成分分析(PCA)的C4.5算法。根据等价无穷小的原理简化运算公式;用属性依赖度的计算并借鉴PCA算法的压缩原理来处理属性相关性问题;引入了“平均波动率"和"应用权重"两个新概念,得到一个新的属性选择度量。用学生综合成绩的评定工作进行应用分析,并用UCI数据集进行性能比较,
实验表明:改进后算法的评定结果更科学,并且分类更准确,运算效率更高。关键词:C4.5算法;属性依赖度计算;主成分分析;平均波动率;应用权重
中图分类号:TP311.5
文献标识码:A
文章编号:1000-9787(2017)01-0131-04
C4.5algorithmbasedonattributedependency
calculationandPCA
HUANG Xiu-xia,SUN Li
(School of the Internet of Things Engineering,Jiangnan University,Wuxi 214112,China)
Abstract: Aiming at problem of C4. 5 algorithm such as huge amount of logarithm operations, irelevant attributes interference and attribute correlation effect,propose C4. 5 algorithm based on attribute dependency calculation and PCA. There are some enhancement strategies which includes simplified calculation formula according to principle of equivalent infinitesimal, deal with problem of attribute correlation through calculation of the dependency for attribute and reference the compression principle of principal component analysis( PCA) algorithm. While introduce two new concepts,"average wolatility"and"application weight"to get a new metric of attribute selection. With the evaluation work of the students' comprehensive performance for application analysis, and use UCI data sets to compare performance. Experimental results show that the improved algorithm evaluation results are more scientific, more accurate and higher computing efficiency than before.
Key words: C4. 5 algorithm; calculation of dependency for attribute; principal component analysis ( PCA) ; average volatility; application weight
阜0
C4.5算法是QuinlanJR在ID3算法的基础上提出的一种算法1],是ID3算法的一种延伸和改进,又称为统计分类器。C4.5算法在各个领域都有广泛应用,例如用C4.5 算法对大学讲师的绩效进行评估[2],根据学生的入学成绩预测学生的在校表现(3),或将C4.5算法用于银行的商业决策[4]等等。
近年来,有不少对于C4.5算法改进的研究工作,如 HarsitiTb等人提出了将C4.5分类算法与传统模糊推理法(Fuzzy-Manidani)相结合的一种决策树分类算法[5];还有人对C4.5算法中信息增益率的计算方式进行改进("]还有将C4.5算法信息增益率的计算用属性依赖度代替的改进(7]等等。
收稿日期:2016-0224
针对C4.5算法的计算复杂、属性间相关性的影响以及可能出现的无关属性的干扰等间题,本文提出了一种新的属性选择度量的改进算法。该算法依据属性依赖度的计算[8]和主成分分析(principal component analysis,PCA)算法
用权重”。将改进后的算法用学生综合成绩的评定工作进行分析,并与C4.5算法和文献[7]中的算法进行比较,实验表明新的算法具有更合理的评定结果,并且运算更加简单。
1
C4.5算法
C4.5算法(10]的核心的是ID3算法,是针对ID3算法
中不具备对连续型属性的处理策略的缺点以及信息增益度量偏向于选择具有大量值的属性而进行的优化改进。ID3