面向特殊主题的排序和检索算法的研究

面向特殊主题的排序和检索算法的研究

ID:32227028

大小:1.04 MB

页数:76页

时间:2019-02-01

面向特殊主题的排序和检索算法的研究_第1页
面向特殊主题的排序和检索算法的研究_第2页
面向特殊主题的排序和检索算法的研究_第3页
面向特殊主题的排序和检索算法的研究_第4页
面向特殊主题的排序和检索算法的研究_第5页
资源描述:

《面向特殊主题的排序和检索算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要在Internet高速发展的时代中,人们通过通用搜索引擎的帮助从浩瀚的信息海洋中寻找自己需要的信息,但通用搜索引擎因为本身涵盖的信息过于广泛而导致了人们往往不能迅速准确的搜索到需要的信息,针对这种情况主题搜索引擎诞生了。主题搜索引擎的专业性和抗干扰性使得检索准确率大大提升。随着网络信息多样化发展,常见的主题搜索有:科技文档搜索、电影资料搜索、数码时尚搜索、书籍期刊搜索、新闻搜索等。但没有一种主题搜索引擎技术能适用于所有的主题领域,有些主题领域具有一些与上述主题领域不同的特点,例如药物商品搜索、职位信息搜

2、索等,这类主题领域的信息同时具有文档结构固定、多词同义现象严重、查询词在文档中出现少等特点。对于这类特殊主题领域,普通检索技术往往不能获得良好的检索效果。本文主要工作即针对这类特殊主题搜索引擎的排序、检索与性能优化算法展开深入研究,主要工作有:(1)提出了一种能更好的适应特殊主题领域的SPF-PR(SpecificallyFocusedPageRank)网页排序算法。PageRank算法是基于超链接分析技术的页面排序算法,随着网页链接结构的复杂程度不断增加,PageRank算法为了适应具体的不同应用需求还需

3、要不断改进和完善。本文在传统PagerRank算法的基础上提出了SPF-PR算法。SPF-PR算法采用了超链接锚文本与领域向量之间的相似度来控制传统PageRank算法的主题漂移现象,比传统PageRank算法具有更高的检索性能。(2)针对特殊主题领域的文档特点设计了SEB-VSM(SeedExtensionBasedVSM)检索模型。目前多数搜索引擎采用的VSM(VectorSpaceModel)检索模型并不适用于某些特殊领域的检索,本文在VSM检索模型的基础上设计了SEB-VSM检索模型来提高特殊主题搜

4、索的检索性能,解决了VSM检索模型不适用于特殊主题领域检索的问题。(3)设计了一种基于Lingo聚类算法的SEB-VSM检索模型优化方案,包括特征降维与相似度优化。基于Lingo聚类的特征降维技术降低了文档向量的维度,提高了相似度计算的执行效率,降低噪音数据对相似度计算的影响;基于Lingo聚类算法的相似度优化,减小相似度计算的误差。经实验证明基于Lingo聚类的特征降维与相似度优化能有效的提高SEB-VSM检索模型的性能。最后应用上述改进与优化算法,设计了一个面向特殊主题的搜索引擎系统,采集了大量网络数据

5、进行测试,实验证明上述改进能在本文研究的特殊主题领域中有效的提高检索性能,在实际应用中具有较高的实用价值。关键词:特殊主题;搜索引擎;链接分析;检索模型;聚类分析IIAbstractTodayistheeraofrapiddevelopmentofInternet,Internet'sexponentialgrowthofinformationtomakepeoplehardtofindtheinformationwhattheyneedsinsuchavastoceanofinformation.Thee

6、mergenceofgeneralsearchenginesmakesthisproblemhasbeenresolved,butthegeneralsearchengineswouldcoverawiderangeofinformationwhichledtopeoplecannotquicklyandaccuratelysearchtherequiredinformation,sothefocusedsearchenginewasborn.focusedsearchenginewithanti-jamm

7、ingperformanceofprofessionalandgreatlyenhancetheretrievalaccuracy.Withthediversificationofnetworkinformation,focusedsearchingofcommonthemesare:ScienceandTechnologysearching,movieinformationsearching,digitalfashionsearching,booksandjournalsearching,newssear

8、ch.Butnotafocusedsearchenginetechnologycanbeappliedtoallsubject,somesubjectareashavesomedifferentcharacteristicsofthesesubject,suchasdrugproductsearching,jobssearching,theseinformationonthesesubjectareashasaf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。