试论一种基于关键向量的文本分类模型的研究

试论一种基于关键向量的文本分类模型的研究

ID:34798841

大小:3.70 MB

页数:62页

时间:2019-03-11

试论一种基于关键向量的文本分类模型的研究_第1页
试论一种基于关键向量的文本分类模型的研究_第2页
试论一种基于关键向量的文本分类模型的研究_第3页
试论一种基于关键向量的文本分类模型的研究_第4页
试论一种基于关键向量的文本分类模型的研究_第5页
资源描述:

《试论一种基于关键向量的文本分类模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔滨理工大学硕士学位论文一种基于关键向量的文本分类模型的研究姓名:赵博申请学位级别:硕士专业:计算机应用技术指导教师:丁华福20080301哈尔滨理工大学工学硕士学位论文一种基于关键向量的文本分类模型的研究摘要随着计算机与网络技术的快速发展,网络已成为人们存储与获取信息的主要手段,存储于网上的文本数量也成指数级增长。这在为用户提供了海量信息的同时,也给用户从中获取有用信息带来了困难。如何能够快速又精准的在如此大量的信息中检索到用户所需的内容已成为当今重要的研究课题。文本的自动分类技术能够有效地将文本信息组织起来,帮助人们准确高效的定

2、位文本信息,为用户获取所需信息提供有力的支持。自从上个世纪六十年代被提出至今,文本的自动分类技术已经有了极大的发展,有许多分类算法被提出,文本自动分类技术已经在搜索引擎,数字图书馆,信息检索等领域得到了广泛的应用。向量空间模型是目前进行大规模文本处理的一种通用模型,当前主流的分类算法如K.近邻算法(KNN),支持向量机算法(SVM)等均是基于该模型的分类算法。虽然人们对这些算法已经有了深入的研究和广泛的应用,但是在其性能上仍有许多不尽人意的地方。课题首先在系统的理论学习和对国内外文献研究的基础上,分析了向量空间模型的特点和当前主流文本

3、自动类算法的缺点和不足。针对目前主流分类算法对待训练文档过于简单的特点提出了一个基于向量空间模型的文本分类算法,引入了关键向量的概念,通过对训练文档进行分析,找出每一类别的关键向量,并赋予其一定的权值,使其为下一步的分类工作提供更多的信息,最后利用其对测试文档进行分类。在此之后,应用实验对该算法进行了测试,并与传统分类算法进行了比较。实验结果表明,与传统算法相比,该分类算法可以在一定程度改善分类速度与精度。关键词数据挖掘;文本分类;向量空间模型;关键向量哈尔滨理工大学丁学硕:l:学位论文StudyofTextClassificatio

4、nModelBasedonKeyVectorAbstractWiththerapiddevelopmentofcomputerandnetworktechnology,Internethasbecometheprimarymeansofstorageandaccesstoinformation,theamountoftextstoredintheonlinegrowthexponentially.Thisprovidesuserswithmassiveinformation,butalsoitishardforuserstogainh

5、elpfulmessagefromit.Atpresenthowcanretrievetheneededinformationquicklyandaccuratilyhasbecomeanimportantresearchtopic.Textclassificationtechnologycanorganizetextmessageseffectively,helppeoplepositioningtextmessagesaccuratilyandefficiently.Sincebeenraisedin1960sautomatict

6、extclassificationtechnologyhasbeenagreatdealofdevelopmentandhasbeenwidelyappliedsuchassearchengines,digitallibrariesandinformationretrieval.VectorspacemodeliSagenericmodelusedinlarge—scaletextprocessing,thecurrentmainstreamclassificationalgorithmallbasedonthismodellikeK

7、—NearestNeighbors(KNN)andSurportVectorMachine(SVM).Althoughthesealgorithmshasabroadandin—depthstudyandapplicationbuttherearestillmanyunsatisfyplace.Basedontheoreticalstudyandresearchliterature,thistopicresearchedthefeaturesofvectorspacemodel,Analysistheshotcomingsofexis

8、tingalgorithms.Targetedatthefeatureoftreattrainingdocumenttoosimpleofmainstreamalgorithms,thisalgorithmraiseda

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。