基于本体的文本分类模型研究

基于本体的文本分类模型研究

ID:33130996

大小:1.69 MB

页数:76页

时间:2019-02-21

基于本体的文本分类模型研究_第1页
基于本体的文本分类模型研究_第2页
基于本体的文本分类模型研究_第3页
基于本体的文本分类模型研究_第4页
基于本体的文本分类模型研究_第5页
资源描述:

《基于本体的文本分类模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西华大学硕士学位(毕业)论文题目:基于本体的文本分类模型研究研究生:邓爽指导教师:彭宏专业:计算机应用技术专业研究方向:数据挖掘培养单位:西华大学论文起止日期:2006年01月至2007年05月西华大学硕士学位论文基于本体的文本分类模型研究计算机应用技术专业研究生邓爽指导教师彭宏摘要在过去的十几年中,将文本自动地归于事先定义好的类别的技术获得了长足发展,这主要是因为以数字形式存储的文档的数目急剧增长,引起了将它们进行有效组织以便于利用的需求。这一过程主要是用机器学习的方法,在事先构造的训练语料上学习各个类别的特征,自动构建出一

2、个分类器。传统的文本分类方法都是采用向量空间模型的文本表示方法,用关键词作为特征来构建的。然而,向量空间模型的文本表示方法是基于贝叶斯假设之上的,即认为词与词之间没有语义联系。但是在现实文本中的用词往往是有关联的,比如:同义词、上下位关系等。并且用关键词来表示文本的特征虽然简单直观,但有其固有的局限性,主要有包含的类别信息太少,维数过高从而造成数据稀疏等两个问题。用特征串作为类别特征可以在一定程度上解决第一个问题,但又会进一步加剧数据稀疏问题。对第二个问题的解决方法一般是进行降维,去掉一些对分类结果没有影响或影响很小的特征,用

3、剩余的特征来表示文本。根据结果特征的特点,降维方法可以分为(1)特征提取:结果是原始特征的子集;(2)特征抽取:结果不是原始特征的子集。基于概念的文本分类方法,采用概念作为特征,将特征从词空间映射到概念空间,这样多个同义词就对应一个概念,而一个多义词在不同的语境下会被映射到不同的概念,提高了特征的凝聚度,克服了基于关键词的分类方法的缺陷,提高了分类准确率。本文的研究工作主要包括以下几个方面:1.建立了基于本体的文本分类模型。西华大学硕士学位论文2.提出基于本体获取概念特征的方法。3.使用概念空间代替词空间,提出相应的权重与相似

4、度的计算方法,建立概念向量空间模型。4.讨论了K最邻近方法和支持向量机分类器,并将概念向量空间模型的思想运用于这两种分类器。5.给出新方法的仿真实验。实验结果表明,基于概念的文本分类与基于关键词的文本分类相比,在查准率、查全率和F1测试值上都占有较大优势。.关键词:文本分类,本体,概念层次,特征选择,概念空间模型,SVM,KNNⅡ西华大学硕士学位论文ResearchonaConceptVectorModelofDocumentsBasedonOntologyComputerapplicationtechniquesM.D.Ca

5、ndidate:DengShuangSupervisor:.PengHongnlcautomatedclassificationoftextsintopre-spo=ifiedcategorieshasgainedarapidprogressinthelasttenyears,duetotheincreasedavailabifityofdocumentsindigitalformandtheensuingneedtoorganizethem.Machinelearningtechnologiesareusedinthispr

6、ocesstoautomaticallybuildaclassifierbylearning,fromasetofpreviouslyclassifieddocuments,thecharactefistiesofcategories.nevectorspacemodel(VSM)isaconventionaltextclassificationmodelthatrepresentsdocumentsasvectorsinamultidimensionalspace.Whenkeywordsareextractedfromad

7、ocmnentcollection,eachdocumentisrepresentedasavectorofweightedkeywordsf晴equencies.InthetraditionalVSM,thesystem'srelevancejudgmentisbasedonthebasicassumptionthatdocumentsarerelatedtoeachotheronlyiftherearesharedkeywordsinthedocuments.However,thedifficultyliesinthefa

8、ctthatmostkeywordshavemultiplemeaningsontheonehand,andontheotherhand,someconceptscanbedescribedbymorethanonekeyword.Inaddition,thetraditio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。