欢迎来到天天文库
浏览记录
ID:36753715
大小:820.10 KB
页数:53页
时间:2019-05-14
《私有信息检索算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、华中科技大学硕士学位论文摘要随着信息技术的广泛应用,公共可访问的数据库和搜索引擎是用户获取最新信息的重要资源。但是,由于传统的私有信息检索模型本身存在的不足,很难应用于实际的大型数据库和搜索引擎中。因此,研究新的、实用的私有信息检索模型及算法具有重要的意义。通过对现有的私有信息检索系统以及基于词语语义相似度的私有信息检索系统的功能要求进行分析,给出了一个基于词语语义相似度的私有信息检索模型。对模型中的词语语义相似度计算、伪造关键字的选择策略、查询信息隐藏和查询结果过滤进行了相关的分析,设计了私有信息检索系统的总
2、体架构。系统架构包括词语语义相似度计算模块、查询处理模块和页面抓取过滤模块。给出了基于WordNet和HowNet的词语语义相似度计算的算法实现。在已有的基于WordNet的词语语义相似度计算算法的基础上,引入节点深度的影响因素。然后将基于WordNet的词语语义相似度的计算算法应用于HowNet的义原相似度计算中。实验表明,改进算法的相似度计算结果更精确,更符合人们日常的语义习惯。给出了基于词语语义相似度的私有信息检索算法。其中伪造关键字的选择标准是算法的关键之处。该算法选择词语语义相似度作为伪造关键字的选择
3、标准,要求伪造关键字与目标关键字的语义相似度满足一定的条件。该算法的时间复杂度是O(k),其中k表示伪造关键字的个数。实验表明,基于词语语义相似度的私有信息检索模型同GooPir模型相比,查询结果质量有一定的提高,信息熵有所下降,但降幅不大。关键词:私有信息检索,词语语义相似度,伪造关键字,查询质量I华中科技大学硕士学位论文AbstractWiththeextensiveapplicationofinformationtechnology,publiclyaccessibledatabasesandsearch
4、engineersareindispensableresourcesforretrievingthelatestinformation.However,becauseoftheshortcomingsoftraditionalprivateinformationretrievalmodel,itisdifficulttoapplytolargedatabasesandsearchengines.Therefore,theresearchonnewandpracticalprivateinformationret
5、rievalmodelandalgorithmhasimportantsignificance.Accordingtotheanalysisoftheimplementedprivateinformationretrievalsystemsandfunctionalrequirementsofwordsemanticsimilarity-basedprivateinformationretrievalsystem,weproposeanewwordsemanticsimilarity-basedprivatei
6、nformationretrievalmodel.Thenwetakerelatedanalysistothepartsofwordsemanticsimilaritycomputing,boguskeywordselectionstrategy,queryinformationhiding,andthequeryresultsfilteringandgivetheoverallarchitectureofthesystem.Thearchitectureofthesystemincludeswordseman
7、ticsimilaritycomputingmodular,queryprocessingmodularandpagecrawlingandfilteringmodular.WeintroducetheimplementofwordsemanticsimilaritycomputingalgorithmbasedonWordNetandHowNet.OnthebasisoftheexistingwordsemanticsimilaritycomputingalgorithmbasedonWordNet,weta
8、ketheinfluencingfactorofthedepthofthenodeintoaccount.ThenweapplythisalgorithmtotheprimitivesimilaritycomputingofHowNet.Theexperimentsshowthatimprovedalgorithmgetsmoreaccuratesimilarityresults,ac
此文档下载收益归作者所有