基于hadoop的分布式云平台搜索系统设计与实现

基于hadoop的分布式云平台搜索系统设计与实现

ID:35056967

大小:3.91 MB

页数:64页

时间:2019-03-17

基于hadoop的分布式云平台搜索系统设计与实现_第1页
基于hadoop的分布式云平台搜索系统设计与实现_第2页
基于hadoop的分布式云平台搜索系统设计与实现_第3页
基于hadoop的分布式云平台搜索系统设计与实现_第4页
基于hadoop的分布式云平台搜索系统设计与实现_第5页
资源描述:

《基于hadoop的分布式云平台搜索系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学巧化号10532学号G12245005分类号TP391密级公开滿為乂參HUNANUNIVERSITY工程硕±学位论文基于HADOOP的分布式云平台搜索系统设计与实现葦位巧请人姓名吴巧潇培养单位信息科学与工招学院导师姓名及职疏林亚平教授彭一江高工学科专业软件工耗研究方向云计算'14年10月1日论文提交日期2010532学校代号:学号:G12245005密级:公开湖南大学工程硕壬学位论文基于HADOOP的分布式云平台搜索系统

2、设计与实现学位巧请人姓名=吴巧潇一异师姓名巧职旅=林亚平教授彭江高工培养单位:信息科学与工程学院专业名硫=软件工措论女提交日期:2014年10月1日论女答辩日期:2016年10月22日答辩委员貪丰席:杨贯中教榜DesignandImplementatio打ofDistrbutedSearchEnginebasedo打HadooploudPlatformCBWUMenxiaoygB.E.HunanUniversit2008(y)A

3、thesissubmitedinartialsatisfactionofthepRequMirementsforthedegreeofasterofEngineeringinSoftwareEngineeringin化eGraduateSchoolHofunanUniversitySupervisorProfessorLinYainpgYSeniorEngineerPe打gijiangOctober,2016分布式云平台搜索系统设计与

4、实现摘要随着互联网的飞速发展,网页数据爆炸性增长,大数据给传统的网络存储产品带来了严峻的考验,于是云存储的新观念应运而生。云存储其实是基于云计算发展出来。云计算可以看作分布式计算、并行计算与网格计算的延伸,将网络中巨大的计算程序拆分为很多个较小的子程序,再交给服务器群构成的巨大的系统,经过计算与解析之后将计算结果传回给系统用户。然而传统的搜索技术已经显得力不从心。云计算储存技术的最新应用,为传统的搜索行业带来了革新,传统的基于网盘的搜索行业将逐渐被数据银行代替。目前的一些云计算存储产品都提供了文件的数据存储、文件的数据同步等功能

5、,但这些产品也同时存在一些缺陷,如:有限的容量;传输文件大小的限制;传输文件格式的限制;文件操作监控不够全面;文件同步效率低;云存储平台不够完善等。数据量爆炸性增长导致传统的搜索引擎显现出各种不足,难以满足用户的搜索需求。本文通过分析现有的对分布式搜索引擎技术的研究,总结了现有系统的优缺点,基于Hadoop云平台,运用Map-Reduce编程框架,实现了一个分布式搜索引擎系统,可以为图书馆、门户网站、论坛或者个人提供良好的分布式检索服务。基于HDFS、jpathwatch类库和Rsync数据差异同步算法实现hadoop云平台文件

6、同步共享,从而满足用户的各项需求。本文的研究工作包含了以下几个方面的内容。第一,本系统运用Map-Reduce编程框架实现了分布式索引子系统和分布式查询子系统,具有良好的计算性能、可靠性和扩展性。Hadoop中的Map/Reduce编程框架是基于谷歌发表的Map-Reduce开源实现。用户可以不考虑分布式处理中的分布式存储、工作调度、负载均衡、容错处理和网络通信等种种复杂的问题,只需编写相应的Map函数和Reduce函数,就可以进行分布式任务的处理。第二,本文提出了一种基于索引大小的自适应性切换搜索算法的解决方案。经测试,该方案

7、在不同大小索引情况下都具有相对较好的搜索效率。设计了基于用户偏好的搜索方式。该搜索方式为用户提供了更灵活的搜索方式,便于用户获取更准确的搜索结果。改进了TF-IDF算法,改善了网页评分策略。第三,本系统设计了一种基于事件队列的实时监控协议和基于数据分块的差异同步协议,使用基于Java语言的开源Jpathwatch类库进行实时文件系统的监控。弥补传统系统事件按钮静态绑定的不足,实现多事件的动态监控处理。利用Rsync算法实现部分文件操作的差异化同步,弥补传统系统文件完全复制同步的不足,实现尽可能少的数据传输。关键字:分布式计算;搜

8、索引擎;Map-Reduce;HadoopII工程硕士学位论文AbstractWiththerapiddevelopmentoftheInternet,theexplosivegrowthofWebpagedatabroughtaseveretestoflarg

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。