基于垂直领域的分布式搜索多样性的研究与实现

基于垂直领域的分布式搜索多样性的研究与实现

ID:35063171

大小:4.99 MB

页数:87页

时间:2019-03-17

基于垂直领域的分布式搜索多样性的研究与实现_第1页
基于垂直领域的分布式搜索多样性的研究与实现_第2页
基于垂直领域的分布式搜索多样性的研究与实现_第3页
基于垂直领域的分布式搜索多样性的研究与实现_第4页
基于垂直领域的分布式搜索多样性的研究与实现_第5页
资源描述:

《基于垂直领域的分布式搜索多样性的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、戀考《^、|硕±学位论文基于垂直领域的分布式搜索多样性的研究与实现作者姓名谢一帆学科专业计算机科学与技术指导教师董守斌教授所在学院计算机科学与工程学院论文提交日期2016年4月ResearchandimplementationofdistributedsearchdiversitybasedonverticalADissertationSubmittedfortheDegreeofMasterCandidate:XieYifanSupervisor:Prof.DongShoubinSouthChinaUni

2、versityofTechnologyGuangzhou,China分类号:TP3学校代号:10561学号:201320129888华南理工大学硕士学位论文基于垂直领域的分布式搜索多样性的研究与实现作者姓名:谢一帆指导教师姓名、职称:董守斌教授申请学位级别:工学硕士学科专业名称:计算机科学与技术研究方向:网络与高性能计算论文提交日期:2016年4月27日论文答辩日期:2016年6月4日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:肖南峰委员:董守斌李拥军蔡宏民董守玲华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导

3、师的指导下独立进行研究所。除了文中特别加W标注引用的内容外取得的研究成果,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中W明确方式标明。本人完全意识到本声明的法律后果由本人承担。'各作者签名叫曰期:>年^月f曰宁学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,良P:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部口或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学

4、校可W公布学位论文的全部或部分内容,可yx允许采用影印、缩印或其它复制手段保存、汇编学位论一文。本人电子文档的内容和纸质论文的内容相致。本学位论文属于:□保密(校保密委员会审定为涉密学位论文时间:年月_日),^__于月日解密后适用本授权书。^^__过^^保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志巧全文出版和编入CNK。I《中国知识资源总库》,传播学位论文的全部或部分内容""(请在上相应V方框内打):日;作者签名期足:.矣.日指导教签名期户

5、师^今^摘要自21世纪以来,信息技术和计算机网络取得了重大的进步,海量数据和信息过载使得用户要从如此多的资讯中检索出感兴趣的内容变得越来越困难。而随着信息存储的压力不断增大,分布式系统也应运而生,与此同时也给传统的检索系统和搜索引擎带来了一系列新的挑战。其中一部分的挑战来自于用户搜索要求包含的多样性,这使得检索系统不仅需要快速且准确的把握用户检索的信息来自哪一垂直领域,即满足用户查询多样性;同时也需要考虑信息的正确性以覆盖用户的需求。而将分布式搜索系统与多样性相结合,就成为解决当前诸多挑战的答案。基于现今分布式搜索引擎的结构,本文在垂直领域选择,资源选择以及

6、结果融合三个方面,结合检索信息的多样性,提出了多种可行的算法,为用户提供更具针对性的服务。本文主要的研究工作包括:(1)在垂直领域选择方面,本文提出词向量判断法和扩展词汇排序法的垂直领域选择算法,在扩展查询词的同时,对垂直领域进行关键词提取,并根据两者的相似度进行垂直领域的选择。实验结果表明本文提出的两种算法与之前已有的垂直领域选择方法相比,在准确率和召回率方面有了一定的提升。(2)在资源选择方面,本文提出两种资源库描述方法,LDA主题描述和TF-IDF资源描述法,结合资源描述法提出了资源库选择算法框架,该框架同时结合垂直领域选择结果,对用户输入查询进行资源库

7、选取。实验结果表明,本文提出的资源库选择算法能够有效地应用于真实复杂的网络搜索引擎的分布式环境,并取得优异的效果。(3)在查询结果的融合方面,本文基于垂直领域特性以及查询词多样性的特性,提出了一种基于文档,资源库,垂直领域三个维度的特征计算的结果融合算法框架,该框架使用改进的CORI算法和线性融合算法进行最终的结果融合分数计算。算法体现了查询结果多样性以及准确性,与已有的方法相比,在搜索结果的准确率,召回率以及nDCG值方面取得了不错的表现和较大的提升。本文在上述研究的基础上,验证了本文提出的三个领域算法能够有效地提高系统的正确率,并保证了多样化的反馈效果,证

8、明了系统能够满足用户多角度查询的需求。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。