基于hadoop数据分析系统设计论文

基于hadoop数据分析系统设计论文

ID:6194281

大小:2.35 MB

页数:69页

时间:2018-01-06

基于hadoop数据分析系统设计论文_第1页
基于hadoop数据分析系统设计论文_第2页
基于hadoop数据分析系统设计论文_第3页
基于hadoop数据分析系统设计论文_第4页
基于hadoop数据分析系统设计论文_第5页
资源描述:

《基于hadoop数据分析系统设计论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop数据分析系统设计毕业论文目录第一章某某企业数据分析系统设计需求分析4第二章HADOOP简介5第三章HADOOP单一部署83.1Hadoop集群部署拓扑图83.2安装操作系统Centos93.3Hadoop基础配置153.4SSH免密码登录183.5安装JDK193.6安装Hadoop203.6.1安装32位Hadoop203.6.2安装64位Hadoop293.7Hadoop优化333.8Hive安装与配置343.8.1Hive安装343.8.2使用MySQL存储Metastore343.8.3Hive的使用373.9Hbase安装与配置3

2、89.1Hbase安装389.2Hbase的使用403.10集群监控工具Ganglia44第四章HADOOP批量部署494.1安装操作系统批量部署工具Cobbler49684.2安装Hadoop集群批量部署工具Ambari55第五章使用HADOOP分析网站日志64第六章总结68第七章参考文献69致谢70第一章某某企业数据分析系统设计需求分析某某企业成立于1999年,其运营的门户网站每年产生大概2T的日志信息,为了分析网站的日志,部署了一套Oracle数据库系统,将所有的日志信息都导入Oracle的表中。随着时间的推移,存储在Oracle数据库中的日志系统越

3、来越大,查询的速度变得越来越慢,并经常因为查询的数据量非常大而导致系统死机。日志信息的分析成为了XX企业急需解决的问题,考虑到单机分析的扩展性与成本问题,且XX企业当前有一部分服务器处于闲置状态,最终决定在现有服务器的基础上部署一套分布式的系统来对当前大量的数据进行分析。结合淘宝目前已经部署成功的数据雷达系统,同时由于XX企业预算有限,为了节约资金,决定采用开源的Hadoop来部署公司的数据分析系统。l采用Hadoop集群优势:1.高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布处理。2.高扩展性,在计算机集簇间分配数据并完成计算,这些集

4、簇可以很容易扩展到数以千计的节点中去。3.高效性,以并行的方式工作,通过并行处理加快处理速度。4.高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。5.廉价性,框架可以运行在任何普通的PC上。l采用Hadoop集群劣势:1.采用单master的设计,单master的设计极大地简化了系统的设计和实现,由此带来了机器规模限制和单点失效问题。2.编程复杂,学习曲线过于陡峭,让许多人难以深入。3.开源性,在广大社区维护不断推进Hadoop的发展的同时,一旦代码出现漏洞并未被发现,而又被有心的人利用,将会对数据的安全造成毁灭性的后果。681.缺乏认证,H

5、adoop并没有对使用Hadoop的权限进行细致的划分。第一章Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统,MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完

6、成海量数据的处理。2.1Hadoop生态系统Hadoop已经发展成为包含多个子项目的集合。核心内容是MapReduce和Hadoop分布式文件系统(DHFS)。它也包含了Common、Avro、Chukwa、Hive、Hbase等子项目,他们在核心层的基础上提供了高层服务,为Hadoop的应用推广起到了重要作用。如图2.1所示:图2.1Hadoop结构图HadoopCore/Common从Hadoop0.20版本开始,Hadoop的Core项目便更名为Common.,它是Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,主要包括File

7、System、PRC和串行化库。68Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。HbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件

8、系统(FileSystem)所提供的分布式数据存储一样,HBase

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。