欢迎来到天天文库
浏览记录
ID:27254411
大小:1.84 MB
页数:116页
时间:2018-12-02
《基于多元权重特征加权的中文文本分类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、·图书分类号TP391密级非密UDC_______________________________________________________________硕士学位论文基于多元权重特征加权的中文文本分类算法董慧指导教师(姓名、职称)尹四清申请学位级别硕士专业名称计算机应用技术论文提交日期2011年5月20日论文答辩日期2011年5月28日学位授予日期年月日论文评阅人樊永生马建芬答辩委员会主席李德玉2011年5月28日····原创性声明本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含其他个人或集体已经发表或
2、撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:日期:关于学位论文使用权的说明本人完全了解中北大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。签名:日期:导师签名:日期:····基于多元权重特征加权的中文文本分类算法摘要随着计算机网络的不断发展,实
3、时共享网络资源已经成为可能,但是同时也带来了海量的信息资源。为了能够从海量纷杂的文本信息中及时准确地获取有效的知识和信息,人们开始关注文本分类技术。文本分类技术可以在很大程度上解决信息杂乱问题,方便用户准确地定位所需要的信息。本文探讨了文本分类的一些关键技术,包括文本表示、文本预处理、特征选择、特征词加权计算、文本分类算法、性能评价。其中,特征词加权算法和KNN分类算法是文本分类过程中两个比较重要的问题,本文围绕这两个问题进行研究。本文首先阐述了常用的特征词加权算法,着重研究了传统的tf*idf加权算法,分析该加权算法存在的不足,即只考虑特征词频率tf和反文档频率idf两种因素,而忽视
4、了特征词本身的特点。在传统的tf*idf加权算法的基础上,本文分析了特征词的一些特点,比如特征词在文档中的位置分布情况、特征词的词语长度和所属的类别,综合考虑了这几种因素之后,提出多元权重特征加权算法,将原有公式进行了扩展,使得经过加权算法调整后的特征词更具有代表性。另外,本文研究了一些常用的文本分类算法后,重点分析了KNN分类算法。针对KNN分类算法的分类结果易受训练文档集数据倾斜的影响,本文引入了算术平均的思想,提出有针对性的改进算法,并通过实验来验证该算法的有效性。实验结果表明,本文所提出的算法效果令人满意,在一定程度上提高了分类的准确率、查全率。关键词:文本分类,多元权重,特征
5、选择,特征词加权,KNN分类算法····ChineseTextClassificationAlgorithmBasedonMultiple-factorsFeatureWeightingAbstractWiththedevelopmentofcomputernetworks,itispossiblethatnotonlypeoplecanshareresourcesandresultsinrealtime,butalsocreateamassofinformationresources.Tobeabletoobtaineffectiveknowledgeandinformationin
6、theconfusedmassofinformationinatimelyandaccurateaccess,textclassificationhasbeenwidespreadconcern.Textclassificationcanlargelysolvetheinformationclutterphenomenon,userscanlocateinformationaccuratelyandconveniently.Thispaperanalyzessomekeytechniquesoftextclassification,includingtextrepresentation
7、,textsegmentation,clearstopwords,featureselection,textclassificationalgorithms,andperformanceevaluation.FeatureweightingalgorithmandtheKNNclassificationalgorithmaretwoimportantissuesintheprocessoftextclassification,sothispap
此文档下载收益归作者所有