基于本体概念的矢量检索模型研究

基于本体概念的矢量检索模型研究

ID:21684449

大小:55.71 KB

页数:12页

时间:2018-10-23

基于本体概念的矢量检索模型研究_第1页
基于本体概念的矢量检索模型研究_第2页
基于本体概念的矢量检索模型研究_第3页
基于本体概念的矢量检索模型研究_第4页
基于本体概念的矢量检索模型研究_第5页
资源描述:

《基于本体概念的矢量检索模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于本体概念的矢量检索模型研究〔摘要)针对传统矢量空间模型文本特征值的计算,给出将文本的评价由基于语法的词条空间转化为概念空间的方法和策略:基于领域本体,依据本体概念间的各种关联,先以一定的映射规则,将词条映射到领域的概念术语空间;然后用概念统计和语义归纳替代传统的词频统计,从概念语义的层次计算文本的特征矢量。实验证明,基于本体概念的矢量检索模型能够有效地表达文本的语义内容,获得更好的检索效果。〔关键词)本体概念检索矢量检索模型〔分类号)TH18ResearchonVectorRetrievalModelBasedonOntologyConceptNieHuiDepar

2、tmentofInformationManagement,SunYat-senUniversity,Guangzhou510275LongZhaohuiLingnanCollege,SunYat-senUniversity,Guangzhou510275〔Abstract)Forobtainingadocumentsfeaturevalueofvectorspacemodel,thispaperpustforwardanapproachforevaluatingdocument'sfeaturevalue,whichisnotbasedontermspacebutcon

3、ceptspace.Thismethodissupportedbyfieldontology,andthewordsofdocumentarefirstlymappedtotheontologyconceptspaceaccordingtotherelationshipsofeachother.Then,unlikenormalstatisticalmethods,theweightoftermiscarriedoutintermsofthematicconceptualvectorretrievalmodel.Sincedocument’sfeaturevectori

4、sconstructedinthelightofsemanticcontentofDoc,theexperimentresultsindicatethattheperformanceofconceptVSMisbetterthannormalVSM.〔Keywords)ontologyconceptualretrievalvectorretrievalmodel1引言目前文本检索最常用的是基于关键词的矢量空间模型,该模型利用出现在文本中的某些关键词语及表征关键词重要性的权值构成矢量,表达文本与查询需求的语义内容[1],并采用矢量内积计算文本特征矢量与查询矢量间的相似度,

5、以此给出中选文本的排序。由于矢量空间模型在很大程度上依赖于其内容的特征描述,又以词匹配策略为检索机制,因此往往存在某些自身难以克服的问题,主要表现在:①矢量空间模型以文本中出现的词形表达文本的语义内容,其相关性判断只是词语的字面匹配。一词多义,一义多词等情况难解决;②缺乏具有语义特征的规范词汇集,抽取索引词的方法建立在语法基础上,索引关键词语表达语义的能力有限,致使文本的特征矢量并不能有效地代表文本的语义内容。另外,因为没有具有语义特征的规范词集,检索请求的矢量描述随意且不精确,也不能有效代表用户的信息需求[2]。这种检索模型的性能自然不佳。在检索机制中引入语义处理技术

6、,是文本检索智能化的重要途径。本文即针对矢量检索机制中的语义处理展开研究。为了使构造的特征词矢量尽可能准确地反映用户查询或文本原义,我们将文本及查询表示为概念的矢量表达,化传统的矢量检索模型为基于语义的概念矢量检索模型,不仅能解决一义多词和一词多义等问题,而且经过语义处理的文本特征矢量与查询矢量更准确地表达了其内容的原义,沿用矢量内积的方法计算得到的相似度也更能体现文本间的语义关联。另外,大量研宄表明,本体作为表达语义的基础是合适的[2]。基于此,在本体支持下,我们构建领域知识的概念空间,利用本体概念间的相等关系、同义关系、上下位关系及其他相关性归纳融合文本词条,重构本

7、文及查询语句的特征描述,实现基于概念空间的矢量检索模型。文章的第2部分给出矢量检索模型的一般定义。第3部分探讨在本体支持下的文本及查询的概念矢量表达及概念权重的计算方法,给出概念矢量模型中的相似度计算。第4部分与传统矢量检索模型进行比较,实验分析该方法的检索性能及效果。2矢量空间模型传统的矢量检索模型,以词形为基础选择索引词,再运用一定的项加权策略(通常为tf-idf)设定索引词的权值,构成文本及查询的特征矢量。一般情况,文本被表达为词条(Term)空间中的某个矢量T{ti,dtij},公式(1)中的tfi为词条ti在文本dj中出现的频度

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。