基于hadoop的分布式搜索引擎的研究

基于hadoop的分布式搜索引擎的研究

ID:28054902

大小:18.14 KB

页数:5页

时间:2018-12-08

基于hadoop的分布式搜索引擎的研究_第1页
基于hadoop的分布式搜索引擎的研究_第2页
基于hadoop的分布式搜索引擎的研究_第3页
基于hadoop的分布式搜索引擎的研究_第4页
基于hadoop的分布式搜索引擎的研究_第5页
资源描述:

《基于hadoop的分布式搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于Hadoop的分布式搜索引擎的研究  摘要:分布式搜索引擎是一种结合了分布式计算技术和全文搜索技术的新型信息搜索系统。它改变了人们获取信息的途径,使得人们能够更快捷、更有效地获取信息。现在它已经深入到网络生活的每一方面,被誉为“上网第一站”。文章在分析当前几种分布式搜索引擎系统的基础上,总结了现在系统的优缺点,针对现有系统的不足,提出了给予Hadoop的分布式搜索引擎

2、。  关键词:Hadoop;分布式搜索引擎;HDFS文件系统  中图分类号:  文献标识码:A一、引言  近年来,随着信息技术科技的进步,人们的生活方式发生了巨大的改变,强大的数据信息化的世界正在逐渐包裹着每一个生活在当下的人们。在人们的日常生活和工作中,信息的获取途径逐渐被网络所取代,而使用者想要快速地对海量信息进行搜索就需要应用一定的媒介,即搜索引擎。与传统的集成式搜索相比,分布式搜索引擎具有更加突出的优势,在这种情况下,积极加强基于Hadoop的分布式搜索引擎研究具有重要意义。二、基于Hadoop分布式搜索技术  Hadoop是一个由Apa

3、che基金会开发的分布式系统基础架构,它的产生是建立在针对Doug为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。Cutting和Yahoo的研究之上。Hadoop对于用户的要求并不高,只要有一定的程序开发基础,即便不了解分布式底层细节

4、,用户依然可以开发分布式程序。  Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。  Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。  文件系统  开源版本在GoogleGFS中的体现就是HDFS,该分布式文件系统有高容错性,数据访问中可以实现高吞吐量,

5、能够对高于64MB的大文件进行海量储存。  对于一个HDFS系统来说,硬件故障是常有的事。一个HDFS系统由成百上千个存储数据片段的服务器构成,可想而知,如此庞大的组成部分是很有可能出现故障的,而故障所导致的后果就是部件失效。因此,故障的检测和自动快速的恢复是HDFS一个很核心的设计目标。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训

6、同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  在HDFS上运行的程序是有其特定的要求的,那就是必须以流的形式访问数据集。HDFS不能进行用户交互,其处理文件的方式是批量处理。它的特点体现在数据吞吐量上,但对于数据访问的反应时间并没有做过多要求。  HDFS文件系统还有一个显著的特点,即大数据集。在HDFS上运行的应用程序都是拥有着大量数据的。通常情况下,HDFS文件大小为GB级到TB级。HDFS提供的空间是相当大的,一个集群中不仅能支持数百个节点,还可以支持千万级别的文件。  模型  M

7、apReduce是一种编程模型,在XX年由GoogleAllo实验室提出。它的功能是作用在集群上,对海量的数据进行并行处理。在Google内部,MapReduce的应用非常广泛,其中包括分布grep、分布排序web访问日志分析、反向索引构建、文档聚类、机器学习和基于统计的机器翻译等。甚至,在MapReduce得到实现之后,它被用来重新生成了Google的整个索引。由此可见,MapReduce具有非常高的性能。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、

8、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。