企业搜索引擎排序技术的研究

企业搜索引擎排序技术的研究

ID:35043124

大小:6.69 MB

页数:79页

时间:2019-03-16

企业搜索引擎排序技术的研究_第1页
企业搜索引擎排序技术的研究_第2页
企业搜索引擎排序技术的研究_第3页
企业搜索引擎排序技术的研究_第4页
企业搜索引擎排序技术的研究_第5页
资源描述:

《企业搜索引擎排序技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级分类号:单位代码互!UDC:?乂4洛事乂學全日制学术型硕±研究生学位论文企业搜索引擎排序技术的研究王延江指导教师李延巧教授申请学位类别工学硕±学科(专业)名栋计算机科学与技术学位按予单位大连海事大学2016年3月分类号密级UDC单位代码10151大连海事大学硕:t学位论文企业搜索引擎排序技术的研究王延江指导教师李延巧职称教授学位授予单位大连海事大学申请学位级别工学硕±学科(专业

2、)计算机科学与技术论文完成日期2016年1月答辩日期2016年3月答辩委员会主席TheResearchofEnterpriseSearchEng化eSorting乂化esisSubmitted化DalianMaritimeUniversityInartialfulfillmentoftherequirementsfbrthedegreeofpMasterofComput;erSciencebyWanYaniangjgComute

3、rScienceandTechnolo(pgy)ThesisSupervisor:ProfessorLiYanhengMarch2016大连海事大学学位论文原创性声明和使用授权说明原御性声明本人郑重声明:本论文是在导师的指导下,独立进行硏究工作所取得的成果,"企化拽索引繁排序巧术的研巧"撰写成博/硕i学位论文。除论文中己经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公开发表或未公开发表

4、的成果。本声明的法律责任由本人承担。学位论文作者签名:学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部口或机构送交学位论。文的复印件和电子版,允许论文被查阔和借阅本人授权大连海事大学可W将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复剌手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕±学位论文全文数据库》(中国学术期刊(光盘版)电子杂志社)、《中国学位论

5、文全文数据库》(中国科学技术信息研巧所)等数据库中,并W电子出版物形式出版发行和提供信息服务。保密的论文巧解密后遵守此规定。:保密□在本学位论文属于年解密后适用本授权书。""不保密曲(请在LJA上方框内打V)论文作名玉筵媒导师签名:家終巧曰期:抑ifc年姜月足(曰中文摘要摘要当前,随着社会经济发展和企业信息化建设不断推进,企业信息资源愈加丰富,同时信息资源呈现分布散乱、形态多样化等特点,使查找信息变的更加困难;另外,由于企业文档信息涉及商业机密,利用商用搜索引擎检索会让公

6、司承担经济风险。因此,在企业内部建立信息资源检索系统,并对检索结果合理有效排序显得越来越重要。为此,在基,本文通过对搜索引擎排序算法展开深入研究于传统搜索排序算法的基础上进行创新一,方面通过对初始迭代向量预估计和引入网页排名波动率作为算法停止迭代计算准则对传统PaeRank一g算法进行改进,另方面从用户点击行为角度将查询词历史点击量对文档贡献率引入到排序算法中,有效地提升了检索准确率和提高了用户满意度。首先,本文介绍了搜索引擎的工作流程,深入研巧搜索引擎的技术原理;介绍了常用的搜索引擎

7、排序算法,重点研巧了经典排序算法PageRank算法;对搜索引擎用户行为进行研究,重点分析搜索引擎用户点击行为的可靠性,根据多个特征判断搜索引擎用户点击与查询的相关性;巧入分析了开源Lucene的评分机制,其核也思想是根掘查询词与网页内容相关度的大小进行排序。然后,提出改进的PageRank算法和对基于用户点击行为模型的排序算法的改进。首先对PageRank算法加W研巧改进,从节点入度角度对其初始迭代向量预估计和引入网页排名波动率作为PageRank算法停止迭代计算准则,减少了迭代次数,加速了

8、迭代过程;其次,通过对用户点击行为的挖掘,分析用户点击行为特征的可靠性,提出了查询词历史点击量对文档贡献率,从用户行为角度影响排序结果。最后,进行实验及结果分析。通过数值实验对比,验证改进的PageRank算法的迭代次数比传统的PageRank算法的迭代次数要少,减少了计算时间;通过比较搜索结果查准率

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。