基于随机森林文本分类探究

基于随机森林文本分类探究

ID:31778750

大小:55.66 KB

页数:5页

时间:2019-01-18

基于随机森林文本分类探究_第1页
基于随机森林文本分类探究_第2页
基于随机森林文本分类探究_第3页
基于随机森林文本分类探究_第4页
基于随机森林文本分类探究_第5页
资源描述:

《基于随机森林文本分类探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于随机森林文本分类探究摘要:文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点。文本分类旨在将大量文本划分到若干子类,使得各文本子类代表不同的概念主题。文章采用了一种基于随机森林的文本分类方法。该方法来源于基于决策树的机器学习,依据文本内容的分词结果进行机器学习,将文本中信息量高的词汇提取出来作为学习维度,可以准确地对文本进行分类。由于随机森林算法[1]具有高并发,快速收敛的优点,非常适合海量数据的处理。关键词:决策树分类;机器学习;森林1问题分析和算法描述随机森林可以看成是Bagging和随机子空间的结合。随机森林是由一

2、系列的分类器组合在一起进行决策[2],期望得到一个最“公平”的学习方法。如图1所示,构造每一个分类器需要从原数据集中随机抽取出一部分样本作为样本子空间,然后再从样本子空间中随机的选取一个新的特征子空间[4],在这个新空间中建立决策树作为分类器,最后通过投票的方法得到最终决(如图1)。图11.1构建单棵决策树(1)对于训练集S,如果训练集数据都属于一个类标签C,或S足够纯净(85%以上的数据都属于类标签C时),否则创建叶子节点,表明类标签C。(2)否则,•选择“最具有信息”的属性A:•依据A来划分训练集S;•递归的划分训练集来构造子树。1.2构建随机森林•

3、从原始数据中产生n个随机抽样。•对于每一个抽样,训练一个未剪枝的决策树,对于每个节点,不是在所有属性中挑选分割最好的决策树,而是在m个抽样出来的属性中挑选最好的那个。•对数据集进行预测,并搜集各个树的预测结果,以众数(出现最多的值)给出最后的预测结果。1.3说明一个单词包含的信息量,用特征单词在文档中出现的频率P,和该词的反文档频率q来表示(如果一个单词在很多文档中出现的频率都很高,那么这个单词过于普遍,不足以用来表征一篇文档)。文本中词汇信息量的维度可以采“炳”来衡量,设D为用类别对训练元组进行的划分,则D的爛(entropy)表示为:其中pi表示第i

4、个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。炳的实际意义是D中元组的类标号所需要的平均信息量。现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:在选取信息量最大的属性是我们依照公式[3]选取对样本及最大的属性A。2实验步骤2.1提取实验文档实验采用搜狗语料库精简版,其分类体系包括几十个分类节点,网页规模约为十万篇文档。2.2文本特征提取、降维采用前面提到的信息增量的办法来衡量信息的有效性,分别计算分词后各词的信息增量gain(A),对语料库中1791篇短文分词,共得到共有前4685个不同的

5、词组,如果全部计算,则运算矩阵维数过高,需要依据gain(A)选取区分度高的词汇作为候选特征。2.3文本向量化依据词在文本中出现的频率,采用tf*idf向量化对文本进行向量化。向量化结果如表1所示:表1按照上面描述的算法对文档进行分类。如果原始训练集S中有N篇文本,使用有放回抽样,从S中抽出N篇文本作为建立第i棵树的训练集Si,调用建立决策树过程,训练单个文本分类器。其中,如果Si有mall维特征,则随机地选取mtry维特征,并且在这mtry维特征中选取分类效果最好的一个特征A作为该结点的分裂属性。2.4试验结果分析及解释(表2):表23试验结果分析依据

6、实验结果,随机森林方法分类的平均准确率和平均查全率要优于贝叶斯方法,主要原因是排除了贝叶斯方法中特征互相独立的不合理假设,将对文档区分度贡献大的词(在本文中多次出现,而在其他文章中出现次数较少)提取出来作为特征,对系统进行无监督分类训练。参考文献[1]SvetnikV,LiawA,TongC,etal.Randomforest:aclassificationandregressiontoolforcompoundclassificationandQSARmodeling[J].Journalofchemicalinformationandcomputer

7、sciences,2003,43(6):1947-1958.[2]张华伟,王明文,甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报:理学版,2006,41(3):139-143.[3]张建兵,戴新宇,陈家骏.文档分类之特征选择方法的实验比较[J]•广西师范大学学报:自然科学版,2008,26(3):181-185.[1]张海龙,王莲芝•自动文本分类特征选择方法研究计算机工程与设计,2006,27(20):3838-3841.作者简介:陈海利(1987-),男,河北省沧州市,同济大学软件工程专业,硕士,研究方向:数据挖掘。孙志伟(1958-),男

8、,辽宁省沈阳市,沈阳机床股份有限公司高级工程师,本科,研究方向:数据库优化。庞龙

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。