随机森林实验报告

ID：48317538

大小：693.04 KB

页数：9页

时间：2020-01-10

资源描述：

《随机森林实验报告》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、随机森林实验报告实验目的实现随机森林模型并测试。实验问题Kaggle第二次作业Non-linearclassification算法分析与设计一．算法设计背景:1.随机森林的原子分类器一般使用决策树，决策树又分为拟合树和分类树。这两者的区别在于代价估值函数的不同。2.根据经验，用拟合树做分类的效果比分类树略好。3.对于一个N分类问题,它总是可以被分解为N个2分类问题，这样分解的好处是其决策树更加方便构造，更加简单，且更加有利于用拟合树来构建分类树。对于每一个2分类问题，构造的树又叫CART树，它是一颗二叉树。4.将N个2分类树的结果进行汇总即可以得到多分类的结果。5

2、.CART树构造：6.随机森林构造：二．算法思路：将一个N分类问题转化为N个二分类问题。转化方法是：构造N棵二叉拟合树，这里假设N为26，然后我们给N棵二叉树依次标号为1，2，3...26。1号树的结果对应于该条记录是不是属于第一类，是则输出1，否则输出0.2号树的结果对应于该条记录是不是属于第二类，是则1否则0，依此类推。这样，我们的26棵二叉树的结果就对应了26个下标。例如对于某条记录，这26个二叉树的结果按序号排列为{0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，...1,0}，那么这条记录的分类应该为25。要将一个26维的0，1序列变回一个索

3、引，我们只需要找出这个序列中值最大的元素的索引，这个索引即是序列号。我们将上面的26棵分别对26个索引做是否判断的二分类树视为一个整体，在多线程的环境下，构造多个这样的整体，然后进行求和运算，最后取出每个结果序列中值最大的元素的下标作为分类值，那么久得到了我们想要的结果，随机森林完成。三．算法流程：1.读入训练集trainset,测试集testset2.将训练集分割为输入trainIn,输出trainOut3.这里假设类别数N为26，将trainOut[记录条数]映射为transformTrainOut[训练记录数][26]4.初始化transformTestOu

4、t[测试记录数][26]全部为05.Fori=1:ForestSize://对训练集采样，这里要注意输入和输出一致[sampleIn,transformSampleOut]=TakeSample(trainIn,transformTrainOut)Forcategory=1:26://CartTree数组存放着26棵二分类树CartTree[category]=TrainCartTree(sampleIn,transformSampleOut);end//transformTestOut[测试记录数][26]为承接二分类树输出的容器fori1=1:testSetN

5、um:Forcategory=1:26:transformTestOut[i1][category]+=predict(CartTree[category],testset[i1])endEndEnd6.遍历transformTrainOut[]，将其每一行的最大值的下标作为该行记录的索引值。四．决策树及随机森林的配置1.决策树在这里，我们每一次26分类是由26棵CART共同完成的，CART的costfunction采用的是gini系数，CART的最大层数为7，分裂停止条件为当前节点GINI为0或者当前节点所在层数到达了7.2.随机森林a.随机森林每次循环的训练集

6、采样为原训练集的0.5.b.对于森林中每一棵决策树每一次分割点的选取，对属性进行了打乱抽样，抽样数为25，即每次分割只在25个属性中寻找最合适的值。并且对于每个选取的属性，我们进行了行采样。即如果这个属性所拥有的属性值数大于30，我们选取其中30个作为分割候选，如果小于30，则全部纳入分割候选。五．代码详解1.训练集/测试集的读入a.在dataDefine.h中定义了：训练集记录列数numparametres（ID（1）+参数数量（617）+输出（1）=619）训练集记录条数transetNum测试集记录条数testsetNum分类类型数typesNum而在mai

7、n.cpp中，我们声明了全局变量trainIn用于装载训练集输入，trainOut用于装载训练集的输出（这里trainOut是二维数组是出于模型如果泛化，那么输出值不一定只有一个的情况，在本次实验中并未派上什么真正用场，可以将trainOut看作一个普通一维数组）。trainID用于装载训练集中每一行的第一列ID号。testIn,testID则对应测试集的输入和ID号。这里注意，没有testOut的原因是测试集的结果理论上应该是不存在的。然后通过自己编写的读入函数读入测试集合训练集，这个函数将分别装载我们在前面提到的trainIn、trainOut、trainID

8、、test

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

随机森林实验报告

随机森林实验报告

相关文章

相关标签