基于朴素贝叶斯分类模型文本特征选择探究

基于朴素贝叶斯分类模型文本特征选择探究

ID:6074687

大小:34.00 KB

页数:11页

时间:2018-01-02

基于朴素贝叶斯分类模型文本特征选择探究_第1页
基于朴素贝叶斯分类模型文本特征选择探究_第2页
基于朴素贝叶斯分类模型文本特征选择探究_第3页
基于朴素贝叶斯分类模型文本特征选择探究_第4页
基于朴素贝叶斯分类模型文本特征选择探究_第5页
资源描述:

《基于朴素贝叶斯分类模型文本特征选择探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于朴素贝叶斯分类模型文本特征选择探究  摘要:该文主要对文本自动分类的特征选择方法进行了讨论,分析了几种常见方法存在的缺陷,指出影响出文本特征选择的两个重要因素——特征项在类别内的文档频率和在类别间的分布差异,并以这两个因素为影响因子分别对TF-IDF和IG方法进行了改进。另外还介绍了朴素贝叶斯分类模型,并基于此模型对改进的特征选择方法的分类效果进行评估。实验结果表明,改进后的方法能够强化特征项在特定类别中的影响力,提高文本分类效果。关键词:文本分类;特征选择中图分类号:TP311文献标识码:A文章编号:1009-3044(2

2、014)01-0133-051概述文本特征选择(TextFeatureSelection)是文本自动分类过程(图1)中的重要环节。文本自动分类(AutomaticText11Categorization)是指运用计算机技术,在预先定义的分类体系下,根据待分类文档内容,将其归属为一个或多个类别的处理过程。文本自动分类技术的研究始于20世纪50年代[2],至今出现了基于不同理论的多种分类模型[3],在这些模型中,用向量空间模型(VSM)来表示文档[5],比如,用T表示文档包含的词汇集合,用每个词及其在文本中的权重作为特征项,则可将一

3、篇文档表示为向量d=(t1,t2,…tm)(ti∈T,1≤i≤m),然后根据文档向量和类别向量计算出相似度,从而确定文档所属类别。文本特征选择是从高维文本特征集合中筛选出一部分特征组成一个低维的向量空间的过程。那么为什么要进行特征选择,是不是维数越高分类效果就越好呢?事实并非如此。一篇文档往往包含数百乃至成千上万个词条,对于语料训练集来说,词条数目更是达到百万级甚至更多。高维的特征,不仅增加了机器学习的负担,提高分类的计算复杂度,而且,过高的特征维数反而有可能降低分类的准确性[6],形成“高维灾难”。这是因为在整个特征集合中,有

4、很多词在各个类别的文档中出现的频率差别不明显甚至几乎一样,类别区分能力很弱。还有一些词只在极少数的文档中出现,也不能作为类别划分的参考。文本特征选择目标就是去除这些对区分类别没有作用的特征项。对文本进行降维处理,不仅可以提高分类的效果,而且能够有效降低分类过程的计算复杂度,大大节省了时间成本。从图1可以看出,特征选择是产生文本特征向量的前提,直接影响模型训练的质量和分类的效果。该文将分析目前特征选择方法存在的问题,讨论影响特征选择的因素,提出改进方法,并用朴素贝叶斯模型对其分类效果进行评估。2相关研究112.1特征选择方法对于不

5、同的分类算法,应采用不同的特征选择方法以达到较为理想的分类效果。用于文本分类的特征统计量有:特征频率(TermFrequency,简称TF)、文档频率(DocumentFrequency,DF)、信息增益、χ2统计量、互信息等等。下面介绍几种常用的特征选择方法,并讨论这些方法存在的缺陷。2.1.1TF、DF和TF-IDFTF是特征t在文档集中出现的频率,计算方法是tf=t出现的次数÷文档集中总词数(含重复)。DF是包含特征t的文档的频率,计算方法是df=包含t的文档数÷总文档数。因为在不同类别的文档中相同特征项出现的频率是有差异

6、的,如果t在某类别中出现的频率较高,那么其在这个类别中的DF一般也高,因此t可以作为文本的类别特征。但是,单纯使用TF或DF还不足以区分不同特征对文本类别的贡献,因为有可能相同特征在所有类别中出现的频率都很高,或者不同特征在某个类别中出现的频率相同却在另一个类别中出现的频率相差甚远,这两种情况都不能正确反应特征对文档类别的影响,因此有一种方法将TF与逆文档频率(InverseDocumentFrequency,IDF)结合起来,称为TF-IDF方法,计算公式为式中idf的计算方法为idf=log11[Nn],N代表训练集文档总数

7、,n代表出现特征t的文档数。idf反应的是特征项在训练集文档中的分布情况,它能够弱化在各类别中共同高频特征项的作用,同时强化只在少数类别中出现的相对低频的特征项的重要度。2.1.2信息增益(InformationGain,IG)文本特征的信息增益是指一个特征所携带的分类信息量,常见公式为其中,n是类别数,p(ci)是第i类出现的概率,若每类平均出现,则p(ci)=[1n]。p(t)=包含词语t的文档数÷总文档数,p(t)=1-p([t])。[p(ci

8、t)]即[t]出现时,[ci]出现的概率,等于类[ci]中包含t的文档数除以训

9、练集中出现[t]的文档总数。[p(ci

10、t)]即[t]不出现但属于[ci]的概率,等于类[ci]中不包含t的文档数除以训练集中未出现[t]的文档总数。2.1.3χ2统计量(CHI-squarestatistic)在文本分类中,χ2统计量表达的是特征项与类别之间的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。