基于Hadoop数据分析系统设计(优秀毕业设计)

基于Hadoop数据分析系统设计(优秀毕业设计)

ID:45782440

大小:497.05 KB

页数:114页

时间:2019-11-17

基于Hadoop数据分析系统设计(优秀毕业设计)_第1页
基于Hadoop数据分析系统设计(优秀毕业设计)_第2页
基于Hadoop数据分析系统设计(优秀毕业设计)_第3页
基于Hadoop数据分析系统设计(优秀毕业设计)_第4页
基于Hadoop数据分析系统设计(优秀毕业设计)_第5页
资源描述:

《基于Hadoop数据分析系统设计(优秀毕业设计)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、摘要随着云时代的来临,人数据也吸引越来越多的关注,企业在F1常运营中生成、积累的用户网络行为数据。这些数据是如此庞人,计量单位通常达到了PB、EB其至是ZB。Hadoop作为一个开源的分布式文件系统和并行计算编程模型得到了广泛的部署和应用。本文将介绍Hadoop完全分布式集群的具体搭建过程与基于Hive的数据分析平台的设计与实现。关键字Hadoop,MapReduce,HiveAbstractWiththeadventofcloud,bigdeltaalsoattractmoreandmoreattention,

2、theenterpriseofthegenerationandaccumulationinthedai1yoperationoftheusernetworkbehaviordata.Thedataissolarge,themeasuringunitisusuallyachievedthePB,EB,andeventheZB.TheHadoopdistributedfi1esystemasanopensource,andparal1elcomputin£programmingmodelhasbeenwidelyde

3、ployedandapplication.ThisarticleintroducesHadoopcompletelydistributedclusterprocessofconcretestructures,andthedesignandimplementeitionofdataemalysisplatformbasedontheHive.keywordsIladoop,MapReduce,Hive目录第一章某某企业数据分析系统设计需求分析4第二章HADOOP简介6第三章HADOOP单一•部署93.1Hadoop

4、集群部署拓扑图93.2安装操作系统Centos113.3Hadoop基础配置193.4SSH免密码登录243.5安装JDK253.6安装Hadoop273.6.1安装32位Hadoop273.6.2安装64位Hadoop443.7Hadoop优化493.1Hive安装与配置513.8.1Hive安装513.8.2使用MySQL存储Metastore523.8.3Hive的使用563.9Hbase安装与酉己置589.1Hbase安装589.2Hbase的使用613.10集群监控工具Ganglia67第四章HADOO

5、P批量部署744.1安装操作系统批量部署工具Cobbler744.2安装Hadoop集群批量部署工貝Ambari85第五章使用HADOOP分析网站口志96第六章总结103第七章参考文献104致谢106第一章某某企业数据分析系统设计需求分析某某企业成立于1999年,其运营的门户网站每年产生大概2T的仃志信息,为了分析网站的日志,部署了一套Oracle数据库系统,将所冇的口志信息都导入Oracle的农中。随着吋间的推移,存储在Oracle数据库中的日志系统越来越人,查询的速度变得越来越慢,并经常因为查询的数据量非常人

6、而导致系统死机。F1志信息的分析成为了XX企业急需解决的问题,考虑到单机分析的扩展性与成木问题,冃XX企业当前有一•部分服务器处于闲置状态,最终决定在现有服务器的基础上部署一套分布式的系统來对当前大量的数据进行分析。结合淘宝0前已经部署成功的数据雷达系统,同时曲于XX企业预算冇限,为了节约资金,决定采用开源的Hadoop來部署公司的数据分析系统。•采用Hadoop集群优势:1.高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布处理。2.高扩展性,在计算机集簇间分配数据并完成计算,这些集簇可以很容易

7、扩展到数以千计的节点小去。3.高效性,以并行的方式工作,通过并行处理加快处理速度。4.高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。5.廉价性,框架可以运行在任何普通的PC上。•采用Hadoop集群劣势:1.采用单master的设计,单master的设计极大地简化了系统的设计和实现,由此带来了机器规模限制和单点失效问题。2.编程复杂,学习曲线过于陡山肖,让许多人难以深入。3.开源性,在广大社区维护不断推进Hadoop的发展的同时,一旦代码出现漏洞并未被发现,而又被有心的人利用,将会对数据的安全造成

8、毁灭性的后杲。4.缺乏认证,Ibdoop并没有对使用Hadoop的权限进行细致的划分。第二章Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。