基于本体和潜在语义索引算法的文本分类方法研究

基于本体和潜在语义索引算法的文本分类方法研究

ID:35157686

大小:2.53 MB

页数:45页

时间:2019-03-20

基于本体和潜在语义索引算法的文本分类方法研究_第1页
基于本体和潜在语义索引算法的文本分类方法研究_第2页
基于本体和潜在语义索引算法的文本分类方法研究_第3页
基于本体和潜在语义索引算法的文本分类方法研究_第4页
基于本体和潜在语义索引算法的文本分类方法研究_第5页
资源描述:

《基于本体和潜在语义索引算法的文本分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北师范大学硕士学位论文基于本体和潜在语义索引算法的文本分类方法研究姓名:孙娜申请学位级别:硕士专业:计算机软件与理论指导教师:杨喜权20090501摘要随着Internet的发展,互联网上的数据和信息呈现海量特征,文本分类作为处理和组织大量文本信息的关键方法,可以方便人们准确地找到自己所需要的知识。信息的爆炸式增长,使人们对文本分类的要求越来越高。传统的基于统计和机器学习的分类方法需要大量的训练集来训练分类模型,如果类别改变需要重新收集大量的训练集合,费时费力。这些传统方法大多采用向量空间模型进行文本表示,会导致特征向量的高维性和稀疏性。在高维的

2、特征空间中实现文本分类,分类的计算量大而且效率低,无法满足用户的需求。本文提出一个基于本体的文本分类的通用框架,重点对文本分类任务中的特征降维和分类两个关键方法进行了深入研究,同时将潜在语义索引算法和领域本体应用到该文本分类的通用框架中,实现了基于本体和潜在语义索引算法的文本分类原型系统。具体内容如下:1.在领域专家的协助下,采用本体开发工具protege3.3,手工构建茶本体,为实现文本分类提供语义信息。2.采用潜在语义索引算法对特征向量进行降维,剔除对分类作用不大的特征项,减少向量维数。3.基于前人工作的基础,结合领域本体知识构建分类器,实现基

3、于语义的文本分类。4.通过与传统的朴素贝叶斯分类器进行对比实验,验证了该方法的可行性和有效性。实验结果表明该方法能够取得较好的分类精度,提高了文本分类的性能。本体作为知识组织和知识表示手段,在理论上具备很多的优势和潜在的功能。将本体的概念引入到文本挖掘领域的应用层面上,为人们实现文本的自动分类提供一种新思路。基于本体的分类方法无需训练样本,可以通过本体获得语义信息并结合文本分类的关键技术实现对文本的自动分类。该研究为基于语义的信息挖掘提供了重要的基础,具有重要的实用价值和广泛的应用前景。关键词:文本分类;本体;特征降维:潜在语义索引;向量空间模型A

4、bstractWiththedevelopmentofIntemet,dataandinformationhasincreasedbyexponentialgrowthlevel.Asakeymethodtoprocessandorganizealargenumberoftexts,textclassificationcallmakepeopleeasilyfindwhatknowledgetheyexactlyneed.TheexplosivegrowthofinformationmakesUSneedhigherandhigherrequire

5、mentfortextclassification.Traditionalmethodsbasedonmachinelearningandstatisticsrequirelotsoftrainingsamplestotrainclassificationmodel.Ifcategoriesalechanged,weneedtOre-collecttrainingsamples,whichiStime—consumingandlaborious.Furthermore,thesemethodsusevectorspacemodeltoexpress

6、texts,andthiswillleadtosuchhigh—dimensionalfeaturevectors.Itisdifficulttorealizetextclassificationinthehigh-dimensionalfeaturespace,largecalculationquantityandlowefficiencycannotsatisfyusers‘needs.Thispaperproposedageneralframeworkbasedonontologyfortextclassification,andconduc

7、tedanin—depthresearchonbothdimensionalreductionandclassificationprocess.Wecombinedlatentsemanticindexingalgorithmwithontologyschemeonthegeneralframeworktorealizeaprototypesystem.Thedetailsweregivenasfollow:1.Withtheassistanceofexpertsinthefield,weusedontologydevelopmenttoolpro

8、tege3.3tobuildteaontologymanually.AndtheteaontologyCanbeasbac

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。