一种采用概率方法的中文文本分类器研究

一种采用概率方法的中文文本分类器研究

ID:35035905

大小:3.06 MB

页数:59页

时间:2019-03-16

一种采用概率方法的中文文本分类器研究_第1页
一种采用概率方法的中文文本分类器研究_第2页
一种采用概率方法的中文文本分类器研究_第3页
一种采用概率方法的中文文本分类器研究_第4页
一种采用概率方法的中文文本分类器研究_第5页
资源描述:

《一种采用概率方法的中文文本分类器研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、—%;■\分类号:TP巧U密级;么开UDC:004单位代码:UB60,、如.备麵硕去学位论文頸论文題目一:种采巧槪率方法的中文文本分类器研究諭学号:1320190297作者:谢业—名专业葦棘;计义祝科学与技术(学水型)\2016年5月30曰?独创性说明本人郑重声明:所呈交的论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加W标注和致谢的地方外,论文中不粒含其他人己经发表或撰写的研究成果,也不包含为获得安徽工业大学或其他教育机构的学位或证书所使用

2、过的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。么签名巧勺岁曰斯:关于论文使用授仅的说明本人完全了解安徽工业大学有关保留、使用学位论文的规定,艮P;学校有权保留送交论文的复印件1,允许论文被查闽和借阅;学校可^公布论文的全部或部分内容,可W采用影印、缩印或其他复制手段保存论文,保密的论文在解密后应遵循此规定。签名^參^导师镶名万期:?。种(安徽工业大学硕士学位论文论文题目:一种采用概率方法的中文文本分类器研究ResearchonChineseTextClassifierBasedonProba

3、bilityMethod作者:谢业名学院:计算机科学与技术学院指导教师:张辉宜单位:安徽工业大学协助指导教师:单位:单位:论文提交日期:2016年5月30日学位授予单位:安徽工业大学安徽马鞍山243002摘要摘要互联网的快速发展与应用使得文本数据的规模急剧增大,从这些大规模数据集合中获得有价值的信息是一个比较难的课题。目前文本分类是组织并利用这些文本数据的主要技术。特征选择和分类器的构造是文本分类的两个重要环节,其中特征选择属于分类中的基础工作,通过特征选择可以大幅降低文本的维度、去除影响分类结果的干扰词汇,为文本分类的后续工作奠定良好的基础。分类器的构造也很重要,分类模型的好

4、坏直接影响分类结果的输出。本文对CHI(CHI-squarestatistic)特征选择和朴素贝叶斯分类器(NaiveBayes,NB)存在的缺陷进行了分析,研究出一种采用概率方法的中文文本分类器,可以分别从以下两个方面进行优化来改善文本分类的效果,其主要工作如下:1、CHI方法没有考虑在不均衡数据集上词出现的类别数量、词的频度以及词在类间与类内的分布情况、文档在类间的分布情况。因此不能为不同的类别选出有效的特征词。本文提出一种基于概率的CHI特征选择算法。首先,该方法以词概率和文档概率来衡量词、文档频繁程度,并用来分别计算类别频数因子、词的类间集中因子、词在类内的均衡度因子、

5、文档的类间集中因子;其次,基于这些因子来修正卡方值;最后,利用同一个词对不同类别的差异程度因子,使得改进的卡方能选出更高效的特征词。文本分类实验结果表明,该方法能使准确率、召回率和宏观F1指标得到一定的提高,说明其在不均衡数据集上有更好的分类效果。2、NB分类器未能区分不同特征的分类贡献度,且常用的朴素贝叶斯改进方法未能全面的度量特征应有的权重,本文提出采用概率方法的NB分类器,将第一步改进方法PCHI得到的属性对类别的卡方值作为权重,在计算朴素贝叶斯后验概率时进行加权。文本分类实验表明,该方法改善了NB分类器的分类效果。通过以上两方面的改进工作,有效的改善了CHI在不均衡数据

6、集上的特征选择效果,并提高了NB分类器的分类精度。关键词:卡方统计;概率方法;不均衡数据集;朴素贝叶斯;文本分类IAbstractAbstractThedevelopmentandapplicationofInternetmakethenumberofdocumentdataincreaseswiftly,it'sadifficulttasktoobtainvaluableinformation.Themethodoftextclassificationisusedtohandlethesedocumentdata.Featureselectionandclassificati

7、onalgorithmsarethemainpartsofthistechnique.Featureselectionisthebasicworkwhichcanreducedimensionandremovebadwordsfortextclassification.Theclassifierisalsoimportmantanditwillaffectclassificationefficiencydirectly.Inthispaper,itanalysesthedefectsofCH

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。