欢迎来到天天文库
浏览记录
ID:259245
大小:1.87 MB
页数:32页
时间:2017-07-15
《基于hadoop的数据仓库技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于hadoop的数据仓库技术目录Hadoop简介HDFS(HadoopDistributedFileSystem)MapReduceHive本文的内容主要来自三篇hadoop领域的核心论文1、Hive—APetabyteScaleDataWarehouseUsingHadoop2、MapReduceandParallelDBMSs:FriendsorFoes3、Cheetah:AHighPerformance,CustomDataWarehouseonTopofMapReduce历史2002-2004:Apac
2、heNutch2004-2006:Google发表GFS和MapReduce相关论文Apache在Nutch中实现HDFS和MapReduce2006-2008:Hadoop项目从Nutch中分离2008年7月,Hadoop赢得TerabyteSortBenchmarkDougCuttingHadoop项目负责人Hadoop简介Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上
3、。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。Hadoop简介Hadoop是Apache的一个开源软件项目,由DougCutting在2004年开始开发。Hadoop是一个海量数据存储和计算的分布式系统,它由若干个成员组成,主要包括:HDFS、MapReduce、HBase、Hive
4、、Pig和ZooKeeper,其中HDFS是Google的GFS开源版本,HBase是Google的BigTable开源版本,ZooKeeper是Google的Chubby开源版本。Hadoop在大量的公司中被使用和研究Hadoop的体系架构Hadoop由以下几个部件组成:HadoopCommon:ThecommonutilitiesthatsupporttheotherHadoopsubprojects.Avro:Adataserializationsystemthatprovidesdynamicintegr
5、ationwithscriptinglanguages.Chukwa:Adatacollectionsystemformanaginglargedistributedsystems.HBase:Ascalable,distributeddatabasethatsupportsstructureddatastorageforlargetables.HDFS:Adistributedfilesystemthatprovideshighthroughputaccesstoapplicationdata.Hive:Ada
6、tawarehouseinfrastructurethatprovidesdatasummarizationandadhocquerying.MapReduce:Asoftwareframeworkfordistributedprocessingoflargedatasetsoncomputeclusters.Pig:Ahigh-leveldata-flowlanguageandexecutionframeworkforparallelcomputation.ZooKeeper:Ahigh-performance
7、coordinationservicefordistributedapplications.Hadoop的体系架构Hadoop--HDFSHDFS的结构按照GFS设计AGFSclusterconsistsofasinglemasterandmultiplechunkserversandisaccessedbymultipleclientsHDFSFault-tolerant,容错性Runoncommodityhardware,在通用的机器上运行Scalable可扩缩的http://hadoop.apache.or
8、g/hdfs/docs/current/hdfs_design.htmlhttp://labs.google.com/papers/gfs.html1个namenode多个datanodes1111HDFSNameNode存贮HDFS的元数据(metadata)管理文件系统的命名空间(namespace)创建、删除、移动、重命名文件和文件夹接收从DataNode来的Hea
此文档下载收益归作者所有