基于改进哈希算法的快速knn文本分类方法

基于改进哈希算法的快速knn文本分类方法

ID:34122084

大小:2.45 MB

页数:61页

时间:2019-03-02

基于改进哈希算法的快速knn文本分类方法_第1页
基于改进哈希算法的快速knn文本分类方法_第2页
基于改进哈希算法的快速knn文本分类方法_第3页
基于改进哈希算法的快速knn文本分类方法_第4页
基于改进哈希算法的快速knn文本分类方法_第5页
资源描述:

《基于改进哈希算法的快速knn文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果.据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得嘎锚蟛或其他教育机构的学位或证书而使用过的材料.与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意.学位论文作者签名:袭南拗签字日期:动胗年f月/日学位论文版权使用授权书本学位论文作者完全了解位依冬咨有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅.本人授权坛黼以将学位论文的拿部或部分内

2、容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文.(保密的学位论文在解密后适用本授权书)学位论文作槲:趸柳导獬:邳;武签字日期:z

3、卜年f月/日签字日期:歹侈,2年乡月/日学位论文作者毕业去向:包业工作单位:铆式泳悠电话:,3膨仫罗6奸通讯地址:哩辽垢艄邮编:’摘要网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需要的数据已经成为一个重要的话题。对此,国内外的专家提出了各种各样的技术,如数据库技术、关键词匹配技术

4、和文本分类技术等。对文本进行分类能够有效的降低搜索感兴趣内容的时间,并且提高结果的准确率,在一定的程度上提高了用户的体验度。常用的分类技术如贝叶斯分类技术、支持向量机分类法、决策树等需要大量的时间来训练分类器,如果更新训练用的语料库的话,需要重新训练文本分类器。传统中的KNN分类器的一大优点在于其能够在语料增加的情况下,不用重新训练分类器,同时分类准确率也比较高,因此一直很是受欢迎。但是,KNN算法也有其瓶颈:需要计算待分类文本与所有训练文本之间的相似度,这会浪费大量的时间。本文提出了一种改进的l心N文本分类方法,根据具有最小方差的若干个特征建立相应的文

5、本列表,搜索近邻文本时,先确定待分类文本的近邻文本在这些特征上的大致取值范围,从而依据哈希算法直接剔除掉绝大多数的文本,对于剩下的文本计算与待分类文本的相似度并找出最近邻的若干个,如果不满足K的要求,可以适当的扩展特征的取值范围直到满足为止。这种做法会极大的提高文本检索的速度。同时根据训练文本的类别与待分类文本的距离溢出率,对该类别中的文本与待分类文本之间的相似度进行适当的权重调整,从而提高分类的准确率。在筛选特征的时候,改进了传统的tf-idf算法,并且根据特征的词性、在句子中的成分、文章标题、摘要、所在段落的位置、所在句子的位置以及句子中的提示词对特

6、征进行适当的权重调整。实验结果说明了这些做法能够非常有效的提高文本分类的准确性。关键词:文本分类,KNN,特征加权,词性标注,提示词AbstractThegrowingpopularityofthenetworkandpeoplebecomeincreasinglydependentontechnologytomakethedatamoreandmoreinelectronicformstoredinthecomputer.Intoday’Shi曲-speedsociety,inlargeenterprisedataorthenetwork,howtoq

7、uicklyandefficientlyfindtheneededdatahasbecomeanimportanttopic.Sothedomesticandforeignexpertshaveproposedavarietyoftechniques,suchasdatabasetechnology,keywordmatchingandtextclassificationtechnique.Textclassificationcaneffectivelyreducethetimeofsearchinginterestingcontent,andeffec

8、tivelyimprovetheaccuracyofsearchresultsandtheuserexperiencedegreestoacertainextent.Thecommonlyusedtextclassificationtechniquessuchasthebayesianclassificationtechnique,supportvectormachineclassification,decisiontreerequirealotoftimetotraintheclassifiers.ifthetrainingtextsareupdate

9、d,theyneedre—traintextclassifiers.Oneoft

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。