欢迎来到天天文库
浏览记录
ID:35043124
大小:6.69 MB
页数:79页
时间:2019-03-16
《企业搜索引擎排序技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级分类号:单位代码互!UDC:?乂4洛事乂學全日制学术型硕±研究生学位论文企业搜索引擎排序技术的研究王延江指导教师李延巧教授申请学位类别工学硕±学科(专业)名栋计算机科学与技术学位按予单位大连海事大学2016年3月分类号密级UDC单位代码10151大连海事大学硕:t学位论文企业搜索引擎排序技术的研究王延江指导教师李延巧职称教授学位授予单位大连海事大学申请学位级别工学硕±学科(专业
2、)计算机科学与技术论文完成日期2016年1月答辩日期2016年3月答辩委员会主席TheResearchofEnterpriseSearchEng化eSorting乂化esisSubmitted化DalianMaritimeUniversityInartialfulfillmentoftherequirementsfbrthedegreeofpMasterofComput;erSciencebyWanYaniangjgComute
3、rScienceandTechnolo(pgy)ThesisSupervisor:ProfessorLiYanhengMarch2016大连海事大学学位论文原创性声明和使用授权说明原御性声明本人郑重声明:本论文是在导师的指导下,独立进行硏究工作所取得的成果,"企化拽索引繁排序巧术的研巧"撰写成博/硕i学位论文。除论文中己经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公开发表或未公开发表
4、的成果。本声明的法律责任由本人承担。学位论文作者签名:学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部口或机构送交学位论。文的复印件和电子版,允许论文被查阔和借阅本人授权大连海事大学可W将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复剌手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕±学位论文全文数据库》(中国学术期刊(光盘版)电子杂志社)、《中国学位论
5、文全文数据库》(中国科学技术信息研巧所)等数据库中,并W电子出版物形式出版发行和提供信息服务。保密的论文巧解密后遵守此规定。:保密□在本学位论文属于年解密后适用本授权书。""不保密曲(请在LJA上方框内打V)论文作名玉筵媒导师签名:家終巧曰期:抑ifc年姜月足(曰中文摘要摘要当前,随着社会经济发展和企业信息化建设不断推进,企业信息资源愈加丰富,同时信息资源呈现分布散乱、形态多样化等特点,使查找信息变的更加困难;另外,由于企业文档信息涉及商业机密,利用商用搜索引擎检索会让公
6、司承担经济风险。因此,在企业内部建立信息资源检索系统,并对检索结果合理有效排序显得越来越重要。为此,在基,本文通过对搜索引擎排序算法展开深入研究于传统搜索排序算法的基础上进行创新一,方面通过对初始迭代向量预估计和引入网页排名波动率作为算法停止迭代计算准则对传统PaeRank一g算法进行改进,另方面从用户点击行为角度将查询词历史点击量对文档贡献率引入到排序算法中,有效地提升了检索准确率和提高了用户满意度。首先,本文介绍了搜索引擎的工作流程,深入研巧搜索引擎的技术原理;介绍了常用的搜索引擎
7、排序算法,重点研巧了经典排序算法PageRank算法;对搜索引擎用户行为进行研究,重点分析搜索引擎用户点击行为的可靠性,根据多个特征判断搜索引擎用户点击与查询的相关性;巧入分析了开源Lucene的评分机制,其核也思想是根掘查询词与网页内容相关度的大小进行排序。然后,提出改进的PageRank算法和对基于用户点击行为模型的排序算法的改进。首先对PageRank算法加W研巧改进,从节点入度角度对其初始迭代向量预估计和引入网页排名波动率作为PageRank算法停止迭代计算准则,减少了迭代次数,加速了
8、迭代过程;其次,通过对用户点击行为的挖掘,分析用户点击行为特征的可靠性,提出了查询词历史点击量对文档贡献率,从用户行为角度影响排序结果。最后,进行实验及结果分析。通过数值实验对比,验证改进的PageRank算法的迭代次数比传统的PageRank算法的迭代次数要少,减少了计算时间;通过比较搜索结果查准率
此文档下载收益归作者所有