基于KNN的多要素中文文本分类研究

基于KNN的多要素中文文本分类研究

ID:36351806

大小:3.62 MB

页数:67页

时间:2019-05-09

基于KNN的多要素中文文本分类研究_第1页
基于KNN的多要素中文文本分类研究_第2页
基于KNN的多要素中文文本分类研究_第3页
基于KNN的多要素中文文本分类研究_第4页
基于KNN的多要素中文文本分类研究_第5页
资源描述:

《基于KNN的多要素中文文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体已经发表的研究成熟均在文中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名):声晶晶加眵年占月2--Et厦门大学学位论文薯l作撤瞳用声明YIIIl2IIl3I4114IH2H5IIllI本人同意厦门大学根据《中华人民共和国学位条

2、例暂行实施办法》等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。()2.不保密,适用上述授权。(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员会审定的学位论文

3、均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权。)声明人(签名):庄晶鼬加?弓年6月摘要随着Interact的迅猛发展和日益普及,网络文本信息急剧增长,如何有效的组织和管理这些海量信息,并能够快速、准确、全面地获得用户所需要的信息是当今信息科学技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需要的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等技术基础,文本分类技术的研究具有重要的理论意义和广泛的应用价值。然而目前大多对文本分类对象还仅

4、是文本内容,而忽略了网络文本的标题、关键字、摘要等信息对文本类别的贡献,如何综合利用这些信息提出高效、准确的分类算法是本文的热点研究内容之一。本文提出了通过KNN算法对文本各要素进行分类,再使用贝叶斯定理综合多分类器,最后通过模拟退火算法协调各要素比重的多要素中文文本分类算法。实验证明该算法能够有效的解决多要素文本分类问题并且与传统的文本分类方法相比有更高的分类准确率。基于KNN的多要素中文文本分类协调算法主要包括以下三各方面:基于KNN算法的中文文本分类研究与实现。主要研究了不同特征维数和不同特征选择算法对分类器的影响,不同K值下KNN算法的分类性能。最后根据实验结果,

5、选择最优的特征维数、特征选择算法以及K值对各要素构造分类器,再使用分类器得到测试文本集的类别信息,最后对分类结果进行评估。提出并实现基于Baycs定理的多分类器协调算法。该算法将Baycs定理运用到多分类器的协调上来,主要根据各分类器的分类结果以及分类器的分类性能,结合Bayes定理重新计算文本分为各个类别的概率。完成模拟退火算法在多要素文本分类上的应用。由于多要素文本中各个要素对文本类别信息的贡献度互不相同,因此提出将模拟退火算法应用到协调多要素的权重上,并通过实验证明该方法的可行性与有效性。关健字:KNN算法;多要素;文本分类Withtherapiddevelopme

6、ntandspreadofInteract,thetextinformationontheInteractgrowsrapidly.Itisabigchallengefacedbycurrentinformationsciencetechnologythathowtoeffectivelyorganizeandmanagethisinformationandgettheinformationusernoedsquickly,accurately,andcomprehensively.Textclassification,asthekeytechnologytoorgani

7、zeandprocesslargemountoftextdata,Cansolvetheproblemofinformationdisorderandbeconvenientfortheusertoaccuratelylocatetheinformationtheyneed.Whatismore,textclassificationisthefoundationofinformationfiltering,informationretrieval,searchengines,textdatabase,anddigMlibrar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。