基于向量空间模型和规则匹配相结合文本层次分类系统的研究

基于向量空间模型和规则匹配相结合文本层次分类系统的研究

ID:31984441

大小:2.28 MB

页数:69页

时间:2019-01-30

基于向量空间模型和规则匹配相结合文本层次分类系统的研究_第1页
基于向量空间模型和规则匹配相结合文本层次分类系统的研究_第2页
基于向量空间模型和规则匹配相结合文本层次分类系统的研究_第3页
基于向量空间模型和规则匹配相结合文本层次分类系统的研究_第4页
基于向量空间模型和规则匹配相结合文本层次分类系统的研究_第5页
资源描述:

《基于向量空间模型和规则匹配相结合文本层次分类系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要基于向量空间模型与规则匹配相结合的文本层次分类系统的研究要随着网络的普及与发展,数字化电子类信息资源极大的丰富和流通。对Internet上海量信息的有效组织和处理是网络时代所面临的巨大挑战。分门别类地对其进行自动分类,是当前图书情报及计算机界研究的热点。在这一领域,人们已经进行了大量的研究。但较为实用且可行的系统却不多。为此本系统研究了对海量数字资源进行特征抽取、表示、分类的方法和相关技术,为数字资源的自动化处理提供可参考的依据和可行的方案。在该分类系统的构建过程中,本系统着重从以下几方面进行系统开发:探索有效的特征抽取与选择方法

2、,找出其权值表示模式,尤其是关键词词表的构迄与维护。在统计与规则两类不同分类方法中找到其切合点,探索如何将两种方法进行结合,发挥其各自的优点,提升分类器的效率和准确性。探索线性分类与层次分类的区别与联系,找出采用层次分类的优势所在,实验其可行性。探索自动分类技术在现实环境中的实用性,解决现实中存在的一些阻碍因素。在本文中我们分别给出了这些问题的解决方案和处理的算法和流程及相应的数据结构。针对研究过程中遇到的问题,本系统在应用相关领域的研究成果基础上,提出了多个新的算法和思路:●借鉴关键词轮排原理,结合相关统计模型,从正反两个方向对原始

3、抽词词典进行压缩和优选,达到降维和准确表达主题的目的;·针对不同特征选择及权值计算方法的特点,采用多方法结合以投票方式进行特征选择和权值赋值,提高标引准确-陛;·针对分类体系的特点,研究提出逐级分类的算法,达到快速准确进行分类的目的:·验证统计与决策规则两种方法的切合点,即双重分类的分界阈值;·探索在保持分类能力的前提下,影响分类速度的相关因素,并提出改善方案。基于以上几个方面,本文对该自动分类系统进行了海量新闻文本和基于“中图法》分类体系的rIP期刊论文分类的实验研究,测试结果表明,该系统具有进行大规模文本自动分类的可行性和实用性,

4、分类效果基本上可以达到普通文本分类实用要求。关键词:自动分类;向量空间模型:层次分类;分类规则;粗糙集基于VSM与规则匹配相结合的文本层次分类系统的研究ResearchofHierarchicalTextCategorizationSystemBasedonVSMandRuleMatchingABsTRACTAlongwiththepopularizationandrapiddevelopmentofIntemet,digitalizedelectronicinformationresourcesgetgreatlyabundanta

5、ndrapidlycirculate.EffectiveorganizationandprocessingoftheenormousinformationontheInteractarethemajorchallengesintheInterneteraAutomaticclassificationoftheinformationaccordingtotheircategoriesisthehotspotofresearchincurrentlibraryinformationandcomputerfields,andlargeamo

6、untofresearchhavebeencarriedoutinthisrespect.However,practicalandfeasiblesystemsarerare.Thispapersystematicallystudiesthemethodologiesandrelevanttechnologiesforfeatureextraction,expressionandcutegorizationoftheenornlousdigitalresources,andprovidesasolidbasisandfeasiblep

7、rogramforautomaticprocessingofthedigitalinformationresoLtrcesSystematicdevelopmentisfocusedonthefollowingaspectsduringconstructionofthecategorizationsystem.Effectivemethodsoffeatureextractionandselectionareproposedandtheexpressingmodeoftheirweight,especiallythebuildinga

8、ndmaintenanceofkeywordglossary,arefoundout.Waysthatcarlintegratetwodifferentcategorizationmethods,statisticsan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。