随机森林算法优化研究

随机森林算法优化研究

ID:35165041

大小:7.12 MB

页数:135页

时间:2019-03-20

随机森林算法优化研究_第1页
随机森林算法优化研究_第2页
随机森林算法优化研究_第3页
随机森林算法优化研究_第4页
随机森林算法优化研究_第5页
资源描述:

《随机森林算法优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、首都经济贸易大学博士学位论文DissertationforDegreeofDoctor论文题目:随机森林算法优化研究一1●.●^’r、1·.13tudy0n013tllrllzatlonor-randoratorestSalgorltl3m院系:——丝盐堂瞳一专业:丝盐鲎————学号:12010120053完成时间:2014.3独创性声明本人郑重声明:今所呈交的((随机森林算法优化研究》论文是我个人在导师指导下进行的研究工作及取得的科研成果。尽我所知,文中除了特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的内容及科研成果

2、,也不包含为获得首都经济贸易大学或其它教育机构的学位或证书所使用过的材料。作者签名:盘盈日期:丝年土月卫日关于论文使用授权的说明本人完全了解首都经济贸易大学有关保留、使用学位论文的有关规定,即:学校有权保留送交论文的复印件,允许论文被查阅、借阅或网络索引;学校可以公布论文的全部或部分内容,可以采取影印、缩印或其它复制手段保存论文。(保密的论文在解密后应遵守此规定)Eta!:巡年上月兰日摘要随机森林算法(RandomForests)是一种基于统计学习理论的组合分类器,它将bootstrap重抽样方法和决策树算法相结合,该算法的本质是构建

3、一个树型分类器{矗。(x),k=l,⋯}的集合,然后使用该集合通过投票进行分类和预测。由于该算法较好地解决了单分类器在性能上无法提升的瓶颈,因此具有较好的性能,能应用于各种分类筛选和预测中。当然,该算法也存在一些有待完善的地方,比如不“FJml佃L℃好地处理非平衡数据、运行效率和分类精度有待提升等。针对这些不足,理论界主要集中在三个方面进行优化研究,一是引进新的算法,二是对将数据预处理融入到算法中,三是针对算法自身构建过程进行优化。本文在充分查阅国内外相关资料的基础上,对后二个方面开展了优化研究。一、在数据预处理方面,提出了两种改进随

4、机森林的优化算法。首先,针对随机森林不能很好地处理非平衡数据的问题,根据聚类算法思想和物理学的重心理论,本文提出了CSMOTE算法,该算法能较好地降低数据集的非平衡性,从而提升了随机森林算法的分类性能。该算法针对SMOTE算法在选取“人造”样本时,存在一定的盲目性现象和容易产生边缘化的问题,提出了从负类样本的重心出发,有目的构造“人造”样本的新思路,使得在“人造”负类样本的过程中,新产生的样本有向重心汇聚的趋势,这样就可以有效地解决了SMOTE算法的缺陷,从而实现了既保留原有数据集的信息,又较好地解决数据集的非平衡性问题,从而在很大的

5、程度上提升了随机森林算法在菲平衡数据集上的分类性能。其次,随机森林算法在进行节点分裂时常采用C4.5算法,但C4.5算法在处理连续变量时,采用二分离散化方法,该方法使得随机森林算法运行效率由数据集中连续变量的数量N决定,N值越大,随机森林算法执行效率越低。针对此现象,本文提出了~种降低N值的新算法,该算法可以很好地为c4.5算法提供简约的数据集,从而提升c4.5算法的执行效率。新算法是在借鉴CHl2系列算法思想的基础上,针对CHl2系列算法没有考虑z2统计量和真实值之间存在偏差的问题而提出的。该算法使用z2矫正公式较好地处理了CHl2

6、系列算法中的偏差问题。文中通过使用三种通用的UCI数据集,将新算法和没有解决偏差问题CHl2+系列算法,在改善随机森林算法性能方面进行了比较分析。实证数据表明,和CHl2系列算法相比,新算法能更有效地约简数据集中的冗余信息.使连续变理取值的数量很大程度地减少,从而提升随机森林算法的执行效率。二、在随机森林自身构建过程优化方面,提出了一种新的节点分裂混合算法。本文通过分析随机森林算法分类性能的影响因素,针对随机森林在生成过程中,节点分裂算法不同引起的随机森林分类性能不同的现象,提出了一种基于线性组合的节点分裂混合算法。该算法将C4.5算

7、法和CART算法在节点分裂时的函数进行线性组合,通过变换组合函数中的系数,充分发挥了这两种算法优势,较好地实现了随机森林算法分类性能的优化。同时,还详细分析了混合算法的稳定性、相关度和强度。首先,通过构造F统计量进行方差分析,对该混合算法的稳定性进行了检验。统计结果表明,该随机森林的混合算法随着森林中树木个数的变化虽然存在一定的不稳定性,但当森林中树木达到800棵时,算法可以达到稳定的状态。然后,对混合算法的相关度和强度进行了理论上的推导和论述,同时实现了随机森林的平均相关度和强度的计算,并使用实证分析的办法,验证了平均相关度和算法分

8、类精度存在负相关,森林的平均强度和算法的分类精度存在正相关的关系,并得了出混合算法对提升森林的平均强度和降低平均相关度较有其他算法具有明显的优势,也从另一个方面验证了混合算法的优越性。在优质股票池选择的实际应用中,该应用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。