欢迎来到天天文库
浏览记录
ID:35056967
大小:3.91 MB
页数:64页
时间:2019-03-17
《基于hadoop的分布式云平台搜索系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学巧化号10532学号G12245005分类号TP391密级公开滿為乂參HUNANUNIVERSITY工程硕±学位论文基于HADOOP的分布式云平台搜索系统设计与实现葦位巧请人姓名吴巧潇培养单位信息科学与工招学院导师姓名及职疏林亚平教授彭一江高工学科专业软件工耗研究方向云计算'14年10月1日论文提交日期2010532学校代号:学号:G12245005密级:公开湖南大学工程硕壬学位论文基于HADOOP的分布式云平台搜索系统
2、设计与实现学位巧请人姓名=吴巧潇一异师姓名巧职旅=林亚平教授彭江高工培养单位:信息科学与工程学院专业名硫=软件工措论女提交日期:2014年10月1日论女答辩日期:2016年10月22日答辩委员貪丰席:杨贯中教榜DesignandImplementatio打ofDistrbutedSearchEnginebasedo打HadooploudPlatformCBWUMenxiaoygB.E.HunanUniversit2008(y)A
3、thesissubmitedinartialsatisfactionofthepRequMirementsforthedegreeofasterofEngineeringinSoftwareEngineeringin化eGraduateSchoolHofunanUniversitySupervisorProfessorLinYainpgYSeniorEngineerPe打gijiangOctober,2016分布式云平台搜索系统设计与
4、实现摘要随着互联网的飞速发展,网页数据爆炸性增长,大数据给传统的网络存储产品带来了严峻的考验,于是云存储的新观念应运而生。云存储其实是基于云计算发展出来。云计算可以看作分布式计算、并行计算与网格计算的延伸,将网络中巨大的计算程序拆分为很多个较小的子程序,再交给服务器群构成的巨大的系统,经过计算与解析之后将计算结果传回给系统用户。然而传统的搜索技术已经显得力不从心。云计算储存技术的最新应用,为传统的搜索行业带来了革新,传统的基于网盘的搜索行业将逐渐被数据银行代替。目前的一些云计算存储产品都提供了文件的数据存储、文件的数据同步等功能
5、,但这些产品也同时存在一些缺陷,如:有限的容量;传输文件大小的限制;传输文件格式的限制;文件操作监控不够全面;文件同步效率低;云存储平台不够完善等。数据量爆炸性增长导致传统的搜索引擎显现出各种不足,难以满足用户的搜索需求。本文通过分析现有的对分布式搜索引擎技术的研究,总结了现有系统的优缺点,基于Hadoop云平台,运用Map-Reduce编程框架,实现了一个分布式搜索引擎系统,可以为图书馆、门户网站、论坛或者个人提供良好的分布式检索服务。基于HDFS、jpathwatch类库和Rsync数据差异同步算法实现hadoop云平台文件
6、同步共享,从而满足用户的各项需求。本文的研究工作包含了以下几个方面的内容。第一,本系统运用Map-Reduce编程框架实现了分布式索引子系统和分布式查询子系统,具有良好的计算性能、可靠性和扩展性。Hadoop中的Map/Reduce编程框架是基于谷歌发表的Map-Reduce开源实现。用户可以不考虑分布式处理中的分布式存储、工作调度、负载均衡、容错处理和网络通信等种种复杂的问题,只需编写相应的Map函数和Reduce函数,就可以进行分布式任务的处理。第二,本文提出了一种基于索引大小的自适应性切换搜索算法的解决方案。经测试,该方案
7、在不同大小索引情况下都具有相对较好的搜索效率。设计了基于用户偏好的搜索方式。该搜索方式为用户提供了更灵活的搜索方式,便于用户获取更准确的搜索结果。改进了TF-IDF算法,改善了网页评分策略。第三,本系统设计了一种基于事件队列的实时监控协议和基于数据分块的差异同步协议,使用基于Java语言的开源Jpathwatch类库进行实时文件系统的监控。弥补传统系统事件按钮静态绑定的不足,实现多事件的动态监控处理。利用Rsync算法实现部分文件操作的差异化同步,弥补传统系统文件完全复制同步的不足,实现尽可能少的数据传输。关键字:分布式计算;搜
8、索引擎;Map-Reduce;HadoopII工程硕士学位论文AbstractWiththerapiddevelopmentoftheInternet,theexplosivegrowthofWebpagedatabroughtaseveretestoflarg
此文档下载收益归作者所有