互联网搜索引擎搜索策略和算法的分析

互联网搜索引擎搜索策略和算法的分析

ID:33003780

大小:1.09 MB

页数:66页

时间:2019-02-18

互联网搜索引擎搜索策略和算法的分析_第1页
互联网搜索引擎搜索策略和算法的分析_第2页
互联网搜索引擎搜索策略和算法的分析_第3页
互联网搜索引擎搜索策略和算法的分析_第4页
互联网搜索引擎搜索策略和算法的分析_第5页
资源描述:

《互联网搜索引擎搜索策略和算法的分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中图分类号:TP393.2密级:公开UDC:081203本校编号:10732硕士学位论文论文题目:互联网搜索引擎搜索策略和算法的研究研究生姓名:姜韶增学号:0212747学校指导教师姓名:魏宗寿职称:教授申请学位等级:硕士专业:计算机应用技术论文提交日期2015.4.4论文答辩日期:2015.6.5万方数据硕士学位论文互联网搜索引擎搜索策略和算法的研究TheStudyontheStrategyandAlgorithmofInternetSearchEngine作者姓名:姜韶增学科、专业:计算机应用技术研究方向:计算机应用技术学号:0212747指导教师:魏宗寿完成日期:

2、2015.05.16兰州交通大学LanzhouJiaotongUniversity万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含获得兰州交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解兰州交通大学有关保留、使用学位论文的规定。特授权兰州交通大学可以将学位论文的全部或部分内容编入有关

3、数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日万方数据兰州交通大学硕士学位论文摘要现阶段,互联网行业的蓬勃发展是有目共睹的。以百度、阿里、腾讯为首的互联网公司竞相角逐,抢占着每一片互联网市场,例如最近一年非常火的O2O电商(onlinetooffline,即线下商品,线上交易),2014年过年非常红的微信红包、百度的大数据迁徙等,互联网都在深刻的改变着人们的生活。在互联网的世界里,有一块市场非

4、常重要,它是互联网的入口,80%以上的互联网流量都需要经过它的分发,这就是搜索引擎。因为互联网公司的网址实在太多,网页数更是可怕,Google(谷歌)目前统计的数字是100亿,大部分想去各家网站的人都会选择通过搜索行为进行跳转。从中我们可看出搜索引擎的好坏直接决定着人们的互联网生活,决定着整个互联网流量的分发,对整个互联网生态都有很大的影响。本文先简单介绍了搜索引擎的背景和意义,说明了研究搜索引擎的重大意义。介绍了搜索引擎的国内外动态,重点介绍了Google和百度,这是现阶段最成功的两家搜索引擎,他们的现状对搜索生态的发展至关重要,最后引出了搜索引擎算法的现状和不足,并

5、提出了解决办法。现阶段搜索引擎主要的搜索算法分爬取部分和排序部分。第二章重点介绍了现阶段的爬虫策略和排序策略,这些策略很多都是个人使用后的一些感触。通过对算法的分析,提出了新的算法:爬取部分的广度优先搜索的并行化思想以及排序策略部分的页面评分排序策略。第三章从产品化策略去分析搜索引擎,单从搜索算法上去看搜索,并不是一个搜索引擎的全部,和真正的搜索引擎相差很远。第三章通过在搜索引擎公司的实习,学到了一个真正的搜索引擎是什么样子的,单纯的算法只是其中的一小部分,提出通过产品化的策略提升搜索引擎的搜索效果,并进行了详细的介绍和分析。第四章主要是针对第二章提出的两种改进算法,在

6、Linux系统上通过集成Nutch爬[20]虫、Solr服务器(主流搜索引擎数据存储服务器)、tomcat监控器、中文分词、前端页面等控件,实现了一个真实的搜索引擎,并对其中很多的代码进行修改,实现了广度优先并行化算法和页面评分排序策略,通过最后的实验数据分析,证明了对爬取效率和排序策略的提升。最后简单介绍了搜索引擎的发展方向,给出了一个比较良好的愿景。可以让人们享受到更好的搜索服务。搜索引擎还是有很大的发展空间的。很多技术现阶段都没有实现,例如个性化搜索、智能化搜索等。-I-万方数据互联网搜索引擎搜索策略和算法的研究关键词:并行化、页面评分排序策略、搜索引擎产品化论文

7、类型:应用研究-II-万方数据兰州交通大学硕士学位论文AbstractAtpresent,thedevelopmentoftheInternetindustryisobvioustopeople.LedbytheBATInternetCompaniestocompete,seizeeverypieceoftheInternetmarket.Forexample,inrecentyearsisthefireofO2O(onlinetooffline,lineofgoods,onlinetransactions),2014Chinesenew

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。