欢迎来到天天文库
浏览记录
ID:37371669
大小:2.72 MB
页数:71页
时间:2019-05-22
《KNN文本分类及特征加权算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代号:10532学号:S11102058密级:普通湖南大学硕士学位论文KNN文本分类及特征加权算法研究堂僮由请厶娃名;吐赶昱逝丝刍壁驱鲞!扬抖坐副熬援墙羞皇僮!信息型堂皇王猩堂暄童些刍整;让簋扭抖堂皇撞苤诠变握童旦期;2Q!垒生§旦!垒旦诠窒筌堂旦期;2Q!垒生§月2墨旦筌避委员金圭廑!堕塞焦熬援ResearchonKNNTextClassificationandTermWeightingalgorithmbyYEDanB.E.(HainanUniversity)2011Athesissubmittedinpart
2、ialsatisfactionoftheRequirementsforthedegreeofMasterofEngineering1nComputerScienceandTechnologyintheGraduateSchoolofHunanUniversitySupervisorAssociateProfessorYANGKehuaMay,2014湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体己经发
3、表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:眵彳皋日期:2pf1阵6月甲日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密口,在年解密后适用本授权书。2、不保密团。(请在
4、以上相应方框内打“√”)作者签名:宁寸丹日期:2口牛年b月中日翮戳:桶锵聃一w年6月甲日KNN文本分类及特征加权算法研究摘要随着信息技术和互联网技术的迅速发展,互联网上的数据量呈指数级增长。如何处理如此庞大而急剧增长的海量数据成为信息科学与技术领域所面临的一大挑战。文本分类作为组织和处理海量文本数据的关键技术,可以在较大程度上解决信息的纷繁芜杂问题,帮助用户快速地检索、查询、过滤和利用信息。本文学习并研究了文本分类及其相关技术,详细介绍了文本分类处理流程中的各个环节,包括:文本预处理、特征选择、特征权重计算、文本分类算
5、法、性能评价。文本分类算法及特征权重计算是文本分类过程中比较重要的两个问题。特征权重算法的好坏对分类结果的精确度有很大的影响,而分类算法的优劣则直接影响分类效率和分类结果的准确率。本文主要围绕这两个问题进行研究。本文研究内容及创新工作主要体现在以下三个方面:1、TFIDF(TermFrequencyandInverseDocumentationFrequency)JJl权算法的研究与改进。特征词权重算法对文本分类的精确度有着非常重要的影响,TFIDF加权方法是VSM(VectorSpaceModel)模型下应用最广泛的
6、一种权重算法。传统特征权重算法TFIDF,忽略了特征词与其他词语之间的语义联系及其在文本集中各个类别间、类内部的分布情况。针对该问题,本文在信息熵与信息增益的基础上,加入词语的语义关联,提出了一种结合语义、信息熵、信息增益的TFIDF改进算法(S.TFIDFIGE)。2、KNN(K.NearestNeighbor)分类算法的研究与改进。KNN算法是当前一种主流文本分类算法,因其实现简单、准确率较高而被广泛应用。但是,KNN算法具有计算复杂度高,分类效率较低的缺陷,限制了其在海量文本分类上的应用。MapReduce是一个
7、通用性和可扩展性都较强的分布式并行计算模型,能有效地处理海量数据。本文在深入分析了KNN分类算法自身特点及HadoopMapReduce编程模型优势的基础上,提出一种基于MapReduce并行的PKNN算法。3、设计并进行了相关实验,验证了本文权重改进算法S-TFIDFIGE和分类改进算法PKNN的可行性和有效性,且对改进后的S-TFIDFIGE和PKNN算法进行了结合试验。文章提出的S-TFIDFIGE和PKNN算法,不仅能提高文本分类的准确率,还可以大幅度减少文本分类的时间,提高文本分类的效率,能适用于处理大规模文
8、本数据分类的实际应用。关键词:文本分类;TFIDF算法;语义;KNN算法;MapReduceII硕士学位论文AbstractWiththerapiddevelopmentofinformationtechnologyandInternettechnology,thetextinformationisincreasingexpone
此文档下载收益归作者所有