基于knn的文本分类特征选择与分类算法的研究与改进

基于knn的文本分类特征选择与分类算法的研究与改进

ID:34040873

大小:5.98 MB

页数:74页

时间:2019-03-03

基于knn的文本分类特征选择与分类算法的研究与改进_第1页
基于knn的文本分类特征选择与分类算法的研究与改进_第2页
基于knn的文本分类特征选择与分类算法的研究与改进_第3页
基于knn的文本分类特征选择与分类算法的研究与改进_第4页
基于knn的文本分类特征选择与分类算法的研究与改进_第5页
资源描述:

《基于knn的文本分类特征选择与分类算法的研究与改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以适当方式明确标明,并符合法律规范和《厦f-]jk学研究生学术活动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名):专钮礅蜀谢忤S月似日厦门大学学位论文著作权使用声明lYllIllll2illIll5lilll

2、U3lUl7IIIIll2ilIIH9H螋本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月曰解密,解密后适用上述授权。(√)2.不保密,适用上述授权。(

3、请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权。)声明人(签名):{编确认l够年_月I可目摘要随着信息技术的迅猛发展和日益普及,文本信息呈现指数级增长。文本分类作为管理大量信息的重要技术,能有效地解决信息混杂的难题,同时能够让用户更准确地检索信息,在信息过滤与检索、邮件分类和话题跟踪等方面有很高的应用价值,是数据挖掘领域的热点技术。本文以提高KNN分类器性能为主要目标,

4、简要阐述文本分类定义、文本预处理、特征选择、特征加权、分类方法和分类性能评估等,并且针对特征选择、特征加权、分类方法进行了深入研究并加以改进。(1)提出了基于蚁群优化算法的特征选择。通过设计适应度函数、转移规则和信息素更新等,可以有效排除关联特征和冗余特征,降低计算的空间与时间,提高计算精度,从而提高分类性能。(2)结合TF-RFIDF对有监督特征加权进行改进。在有监督特征加权方法TF.RF的基础上,将相关性频率(RF)和逆文档频率(IDF)结合,提出TF-RFIDF特征加权法,更好地利用了样本分布和类别先验信息,从而提高文

5、本分类的性能。(3)结合关联规则对KNN分类算法进行改进。该方法利用A研ori算法针对不同类别的训练样本提取每个类别的频繁特征集及其关联的文本,为未知类别的文本确定适当的近邻数k,根据近邻的类别确定未知文本的类别。改进后的方法能够较好地确定k值,并且能降低时间复杂度。实验表明,三个针对文本分类的算法改进都能提高分类正确率,表明了算法的有效性。关键词:文本分类;蚁群优化算法;TF-RFIDF;KNN算法AbstractWiththerapiddevelopmentandinformationtechnology,thetext

6、informationincreasesexponentially.Asanimportanttechnologyofmanaginglargeamountofinformation,textclassificationisabletosolvetheproblemofchaoticinformationeffectively.Meanwhile,it’SconvenientforUSertoretrievetherequiredinformationaccurately.Consequently,thetextclassi

7、ficationpossesseshighvalueofapplicationvalueinthefieldofinformationretrieval,classificationandfilteringmails,trackingtopics,etc,havingbeenahotresearchfieldindatamining.FocusingonimprovingtheperformanceofKNNclassifier,thisdissertationintroducesthedefinitionoftextcat

8、egorization,preprocessingprocedureoftext,definitionandalgorithmsoffeatureselection,comparisonoftraditionalandsupervisedtermweighting,textclassifi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。