文本挖掘分类算法比较探究

文本挖掘分类算法比较探究

ID:47831676

大小:61.50 KB

页数:5页

时间:2019-11-19

文本挖掘分类算法比较探究_第1页
文本挖掘分类算法比较探究_第2页
文本挖掘分类算法比较探究_第3页
文本挖掘分类算法比较探究_第4页
文本挖掘分类算法比较探究_第5页
资源描述:

《文本挖掘分类算法比较探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、文本挖掘分类算法比较探究摘要:本文借助R软件,采用来自某新闻媒体官方微信公众号中16个类别的中文文本数据,对所发布内容进行分类。首先对文本进行预处理,主要是进行分词和去除停用词,并加入自定义词典,然后采用TF-IDF权重法提取文本特征,按照训练集与测试集10:3的比例,用支持向量机(SVM),随机森林(RF),Boosting,最大似然的广义线性回归(GLMNET),最大爛(MAXENT)这5种分类算法,对选取的训练文本进行训练得到不同的分类模型,进而对测试文本进行自动分类,并釆用5折交叉验证法比较不同算法的分类性能。结果显示Boos〜ng分类算法对于该文本的分类准

2、确率最高。关键词:TF-IDF;支持向量机;随机森林;Boosting;分类模型一、引言文本分类是指依据文本的内容,根据某种自动分类算法按照一定分类体系或标准,对大量文本进行判断并归类为预先定义好的一个或者多个类别的过程。本文根据微信公众号发布内容,建立分类模型进行文本自动分类,主要采用支持向量机(SVM)、随机森林、Boosting.最大似然的广义线性回归、最大爛这5种分类技术。二、描述性统计❷母眯挛琶教骞傅轿(12)殴❷众号的发布内容及其所属类别来看,共发布了780条新闻,其中社会类新闻达到了352条,生活服务类新闻共有118条,健康类新闻有65条。因此,该新闻

3、媒体比较关注有关社会民生、身体健康等方面的内容,较适合普通民众阅读。词云图是一种信息文本可视化技术,可过滤掉大量的庞杂文本信息,容易看出哪些类型的关键词出现频率最高,从而更容易对其进行分类。以下是对该新闻媒体的几种具有代表性的新闻类型分别作出词云图,可以观察到在某类型新闻中哪些词出现的频率较高,从而更容易对一则新的新闻进行分类。图1-图5分别展示出的是社会类新闻、生活服务类新闻、房产类新闻、财经类新闻、环保类新闻。但若仅仅通过观察来判断一条信息属于哪一类型,不仅工作量大且正确率有待考究,因此需要通过文本分类算法来规范化新闻的分类。由于篇幅受限未给出词云图。三、实证分

4、析3.1文本集整合在提取文本特征之前,要对文本做预处理,主要是对文本进行分词和去除停用词处理。去除停用词一般通过导入中文停用词表来实现,本文采用的中文停用词表含有4545个停用词。去除这些与主题无关的词以后,按照实际需求选取权重最高的几个词汇来代表该文本的核心内容。此外,在文本信息处理过程中,通过从搜狗细胞词库中选择自定义词典将文本中出现的特殊词加进去,有助于识别文本,提高分类的准确率。3.2提取特征文本选取能够反映文本类别的文本特征。各个词汇对文本分类的影响是不同的,一些通用的或者各个类别中都普遍存在的词汇对文本分类的影响很小,去除掉这些没有影响力的词汇,筛选出代

5、表该类的特征项集合。特征提取是文本分类中的关键问题,它对分类精确率有很大影响。文本特征提取有很多方法,其中最常用的方法是通过词频选择特征。通过词频计算出权重。采用TF-IDF(词频率-逆文档频率)法计算权重。3.3利用训练集训练模型本文选用某新闻媒体官方微信公众号的发布内容为研究文本,文本类别为时政、社会、头条新闻、视频、生活服务、财经、科技、健康、房产、环保等16类。取600篇作为训练文本,其余180篇作为测试文本。在模型训练时,对训练文本进行词频统计,得到词频统计矩阵,构造不同算法对应的分类器模型。分别是支持向量机(SVM),随机森林(RF),Boosting,

6、最大似然的广义线性回归(GLMNET),最大爛(MAXENT)这5种分类算法。3.4利用测试集对模型测试对于选取的180篇测试文本,根据不同的分类器模型,对测试文本进行自动分类,以支持向量机和最大炳算法为例,得到的分类结果见表1。(蓝字标注的表示分错的类别)进一步,针对这两种算法的180篇测试文本分类结果及各个类别正确分类和错误分类的文本数。对应计算出各类别的正确率。在支持向量机SVM算法下,社会和活动这两个类别分类的正确率相对较高,分别为81%,68%o在最大炳MAXENT算法下,社会、时政、活动、生活服务这四个类别分类的正确率分别为63%,67%,78%,66%

7、o3.5分类性能的比较针对五种分类算法,采用5折交叉验证,得到分类准确率Accuracyo支持向量机(SVM)、随机森林(RF)、Boosting、最大似然的广义线性回归(GLMNET)、最大炳(MAXENT)这五种算法的5折交叉验证准确率分别为0.573,0.667.0.692、0.608、0.574o这五种分类算法的准确率都基本上在60%以上,其中Boosting的准确率最高,近70%oBoosting算法对于此文本分类是分类性能最好的算法。四、结论由实证部分交叉验证结果得到Boosting算法是此文本分类中性能最好的分类算法。Boosting算法具有速度快

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。