
数学义本与变用
算法分析
随机森林算法应用于锅炉燃料量预测的参数设定
蔡佳成沈学强
(东北电力大学自动化工程学院吉林吉林132012)
摘要随着经济和信息技术的飞速发展海量数据已经成为了当今信息社会的一个重要的特点。本文提出了将海量数据应用于电厂运行参数分析当中,再基于随机森林算法对电厂煤耗量预测的一种新思路,本文着重对决策树算法与随机森林算法达两种常用的数据分类回归算法进行了比较分析。并对随机森殊算法的参数设定进行了试验分析并得出结论。对日后进行电厂的煤耗量、负荷以及其他运行参数进行研究提供了保障。进而达到根据电厂负荷的大量历史数据对未来所需的负荷值递行准确预测的日的。
关键词:随机森脉算法煤耗量决策树算法参数
中图分类号:TP274+2
文献标识码:A
LeoBreiman于2001年发表的文献对随机森林算法做了详细的阐述,给出了随机森林的详细介绍和一系列数学推导,包括随机森林的定义、算法流程、泛化误差分析,而且给出了一个泛化误差上界,证明了随机森林不会过拟合,并对随机森林的分类强度和相关度进行研究-4,此外,随机森林还可以得到属性的重要性排序以及样本之间的相似程度度量。
由于随机森林具有的良好性能,使得随机森林算法在数据挖掘领域得到广泛的研究和应用,包括生物信息学、金融学、医学、经济
管理学、图像识别、工业自动化等方面5-1。 1数据预处理
利用matlab编程对实验所用数据进行相应的去噪声与填补空缺值处理。对于每一特征属性值求其平均值,将数据集中空缺值或非数字型字符(NAN)的位置用所求到的平均值代替。
随着随机森林集成模型中决策树数目的增长,泛化误差PE"将收效于:
PE" = Pxr (P (h(X,e)=Y)max r P (A(X,e)= j)< 0) (1)
式中e
分布概率随机向量,A(X,@)
分类器函数,等同
于5(X),公式(1)的证明在文献[9)中已经给出,并且表明随机森林不会出现过拟合。这是随机森林的一个重要特点,随着树的增加,泛化误差PE*将趋向某一上界。这表明了随机森林系统对噪声具有较好的容忍能力。
2随机森林算法与决策树算法比较分析
决策树是一种十分常用的分类回归方法。决策树又名分类回归树(classregtree),顾名思义,一个用于分类,一个用于回归。此处从预测的角度讲决策树用于回归的功能。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之闻的一种映射关系。En-
65 hsob pidursuo 50
45 40 3e
100
the true value
predictive value of classregtree the predictive value of RF
200
300
400
500
600
time 18:17-23:60
图1ooberror对比图
收稿日期:2015-12-09
700
008
1000
文章编号:1007-9416(2016)02-0141-02
tropy=系统的凌乱程度,就是常用经典算法ID3,C4.5生成树算法使用的。对一个给定的样本分类所需的期望信息由下式给出:
I (s1, S2,*** S, )=
p,log(p.)
(2)
其中P=5/s是任意样本属于C的概率。注意,对数函数以2为底,其原因是信息用二进制编码,设属性A具有v个不同值a,,a,,",a,」。可以用属性A特S划分为v个子集(S.S,,,SJ,其中S中的样本在属性A上具有相同的值ai=1,2,",v)。设s,是子集S中类C的样本数。由 A划分成子集的简或信息期望由下式给出:
E(A) ((s,, + 5;, + ... + 5./) / s)* I(s, + 8±, +... + S,)
(3
摘值越小,子集划分的纯度越高。对于给定的子集S,其信息期望为:
I(su + S2) + ... + Sr) = -
plogz(pu)
(4)
其中P,=S/s是S中样本属于C,的概率。在属性A上分枝将获得的信息增益是:
Gain (A)= I($,$.-. ,s_) E (4)
表1随机森林与决策树的MAPE比较
预测方法随机森林决策树
MAPE(%)
3.84 6.89
表2不同Ntree的MAPE值对比
森林的数目Ntree
100 150 200 250 300
MAPE(%)
3.14 2.69 2.42 2.58 2.73
表3不同样本数量S的MAPE值对比
样本数量S
500 2000 5000 10000 30000
MAPE(%) 3.84 4.01 4.26 3.90 4.05
(5)
作者简介:蔡佳成(1990一),男,辽宁芦岛人,硕士,研究方向为随机森林算法研究;沈学强(1981一),男,吉林吉林人,博士,副教授,研究方向为
安全相关系统的功能安全与设计
141