基于企业搜索引擎重排序的研究与应用

基于企业搜索引擎重排序的研究与应用

ID:33515273

大小:2.87 MB

页数:70页

时间:2019-02-26

基于企业搜索引擎重排序的研究与应用_第1页
基于企业搜索引擎重排序的研究与应用_第2页
基于企业搜索引擎重排序的研究与应用_第3页
基于企业搜索引擎重排序的研究与应用_第4页
基于企业搜索引擎重排序的研究与应用_第5页
资源描述:

《基于企业搜索引擎重排序的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于企业搜(申请学术硕士学位论文)索引擎重排序的基于企业搜索引擎重排序的研究与研究与应用应用程芸芸培养单位:计算机科学与技术学院学科专业:计算机应用技术武汉研究生:程芸芸理工指导教师:刘军副教授大学2014年5月万方数据分类号密级UDC学校代码10497学位论文题目基于企业搜索引擎重排序的研究与应用英文BasedOntheResearchandApplicationof题目EnterpriseSearchEngineResorting研究生姓名程芸芸姓名刘军职称副教授学位硕士指导教师单位名称计算机科学与技术学

2、院邮编430070姓名职称学位副指导教师单位名称邮编申请学位级别硕士学科专业名称计算机应用技术论文提交日期2014年4月论文答辩日期2014年5月学位授予单位武汉理工大学学位授予日期2014年6月答辩委员会主席邹承明评阅人邹承明刘维2014年5月万方数据独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志

3、对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:学位论文使用授权书本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息服务。(保密的论文在解密后应遵守此规定)研究生(签名):导师(签名

4、):日期万方数据摘要基于lucene搭建起来的企业搜索引擎,搜索出来的文档是根据查询词的相关度来进行排序。但如果将这个搜索引擎用到企业内部,这并不完全符合用户的需求,因为权限是企业的一个主要特点。用户在不同的系统中所属角色不一样,能看到的文档也不一样,对于不同的用户来说,搜索相同的查询词,可能想要的查询结果都不一样;长期搜索并点击过的文档,再次搜索时,点击过的文档能否排在前面;同一角色内的用户,搜索的查询词和点击过的文档对该角色下的其他用户是否有指导作用等;为了满足上述需求,在搜索的过程中,添加了影响搜索结果

5、排序的评分因子。在得到搜索结果时,需要考虑查询词在文档中的位置,分析词在文档中的分布。在用户使用搜索系统的过程中并有了一定的搜索记录和点击记录时,定期的对用户的搜索行为进行离线分析。根据用户输入的查询词和点击情况,判断哪些搜索结果对该查询词和用户是相关的。评估搜索结果跟查询词的相关性是根据用户的点击情况,理想的情况下是用户点击过的文档都是与用户以及查询相关的。评分因子权重的计算采用的是ListNet算法,对样本集进行训练,得到每个评分因子的权重,对每个查询来说,只统计分析前100篇文档。当用户再次进行搜索时,

6、在搜索的过程中,计算文档与查询词的相关度时,将评分因子和评分因子对应的权重进行加权平均求和,得到的分数作为文档与查询词的相关度,并通过堆排序对搜索出来的结果进行重新排序,将排序靠前的文档显示出来。根据用户的搜索和点击情况,发现这些评分因子对搜索结果是有用的,搜索出来的结果与查询词会更加相关,更加符合用户的需求;并采用分类过滤,缩小查询范围,使得搜索结果更加具体。通过分析发现,用户开始搜索时,词位置的权重较高,通过一段时间的使用,用户的点击行为以及所属的角色所占的权重相应提高。在搜索的过程中,对人名、地名的识别

7、,以及新词的发现,使得搜索出来的结果更加准确。关键词:重排序,lucene,词位置,用户点击,排序算法I万方数据AbstractLucenecanestablishenterprisesearchengine,andsearchdocumentsthatsortedbasedontherelevanceofthequery.Butthisisnotentirelyinlinewiththeneedsofusersbecausetheauthorityisthemainfeatureincompany,user

8、sbelongstodifferentsystemhavedifferentrole,sowhensearchthesamequeryterms,theymaywanttolookthedifferentresults;documentsthatareclickedmanytimesmayinthetoppositionwhenusersearchagain,userssearchedqueryte

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。