基于随机森林和转导推理的特征提取方法

基于随机森林和转导推理的特征提取方法

ID:33789605

大小:470.62 KB

页数:6页

时间:2019-03-01

基于随机森林和转导推理的特征提取方法_第1页
基于随机森林和转导推理的特征提取方法_第2页
基于随机森林和转导推理的特征提取方法_第3页
基于随机森林和转导推理的特征提取方法_第4页
基于随机森林和转导推理的特征提取方法_第5页
资源描述:

《基于随机森林和转导推理的特征提取方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第49卷第3期厦门大学学报(自然科学版)Vo1.49No.32010年5月JournalofXiamenUniversity(Natura1Science)May2010基于随机森林和转导推理的特征提取方法邱一卉,米红(厦门大学信息科学与技术学院,福建厦门361005)摘要:提出一种基于随机森林和转导推理的特征提取方法,步骤如下:1)利用带标签的训练样本建立随机森林模型;2)将无标签的测试数据导入随机森林模型中,生成全体数据(训练样本和测试数据)的相似性矩阵;3)对该相似性矩阵进行多维尺度变换得到全体数据的低维数据表示,即低维特征,使得原高维数据在低维空间中具有更好的可分性.UC

2、I数据库的实验结果表明:与主成分分析方法相比,该方法将无标签测试集的数据分布信息转移到相似性矩阵中,更好地刻画整个样本空间上的数据分布特性,从而提高分类器的性能,是一种行之有效的特征提取方法.最后还讨论了特征提取维数对模型准确率的影响,为实际应用提供参考.关键词:特征提取;随机森林;转导推理中图分类号:TP181文献标识码:A文章编号:0438—0479(2010)03—0333—06由于缺乏先验信息和专家知识,机器学习和数据UCI数据库上的实验表明:该方法充分利用带标签的挖掘算法建模过程存在的一个突出问题是数据的属性训练样本和无标签测试数据的全部信息,将测试集的维数众多.在诸如

3、人脸识别和图像检索等应用中,由于数据分布信息从无标签测试数据转移到相似性矩阵所处理数据具有高维数的特点,如果不对其进行有效中,与传统的归纳式学习算法PCA相比,能更好地刻的特征提取,则很容易出现所谓的“维数灾难”.如何以画整个样本空间上的数据特性,从而更好地提高分类较少的维数来表示数据,通过更为稳定的表示来提高器的性能,是一种行之有效的特征提取方法.本文的最分类性能,删去多余的或不相关的信息,由图形表示发后还讨论了特征提取维数对模型准确率的影响,为实现其固有结构正是维数约减所研究的范畴,即通常所际应用提供了实验参考.说的降维[1].维数约减的有效性是很多机器学习算法成败与否的关键

4、,常见的维数约减方法有主成分分析1随机森林概述(Principalcomponentanalysis,PCA)以及线性0别分析方法(Linerdiscriminantanalysis,LDA)E13.PCA的随机森林是一种组合分类器方法,构成随机森林目的是寻找在最小均方意义下最能够代表原始数据的的基本分类器是决策树.决策树是一种由结点和有向投影方法,LDA的目的是寻找在最小均方意义下,最边组成的层次结构,树中包含3种结点:根结点、内部能够分开各类数据的投影方法,这两种算法都是归纳结点、终结点.决策树仅有一个根结点,是全体训练数式学习算法.传统的归纳式学习算法试图获得某种学据集合.

5、树中的每个内部结点是一个分裂问题,它将到习机器,使其对未来所有可能样本的预期性能最优,而达该结点处的样本按某个特定属性分块.每个终结点在很多实际问题中往往只需对一些特定的数据进行识(又称为叶结点)是带有分类标签的数据集合.从决策别,于是考虑设计一种更为经济的分类器,用于建立一树的根结点到叶结点的一条路径就形成一个判别规种直接从已知样本出发对特定的未知数据进行识别的则.决策树算法采用自顶向下的贪婪算法,每个内部结方法和原则.相对于传统的归纳和演绎推理,这种推理点选择分类结果最好的属性将到达该结点的数据分成方法被称为转导推理.本文提出一种基于随机森林[2]2块或者更多块,继续这个过程

6、直至这棵树能准确的和转导推理特征提取方法,充分发挥随机森林对数据分类全部训练数据.决策树算法的核心问题是选择较空间分布表达的多样性特性进行转导推理学习,有效优的分裂属性.选择分裂属性的标准很多,例如信息增地解决了维数约减和模型泛化误差之间的矛盾.在益、信息增益比、Gini索引等,对应不同的属性选择方法决策树算法有ID3、C4.5、CART等.本文中决策树算法与CART算法[3]相似,其分裂属性的选择以Gini收稿日期:2009—05-04*通讯作者:mihong2017@rip.sins.coin.an指数为指标.厦门大学学报(自然科学版)随机森林重复上述的建树过程构建多个决策树

7、的2.2基于相似度矩阵的多维尺度变换组合.首先设定森林中有M棵树,即有M个决策树分Prox矩阵可以看成是通过随机森林将原始属性类器,且全体训练数据的样本总数为N.使用bagging空间中的样本映射到相似性空间中,用两两样本之间方法,即通过从全体训练样本中随机地有放回地抽取的相似性程度来描述数据集样本之间的关系,随机森N个样本,形成单棵决策树的训练集.重复M次这样林在这个过程中被当成是一种特征映射的工具.在这的抽样过程就分别得到M棵决策树的学习样本.除了个相似度空间中,我们进一步寻

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。