欢迎来到天天文库
浏览记录
ID:431144
大小:1.67 MB
页数:8页
时间:2017-08-01
《英特尔hadoop发行版》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、白皮书英特尔Hadoop大数据解决方案英特尔Hadoop发行版分布式文件系统HDFS简介英特尔Hadoop发行版提供下列核心Hadoop分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个优势:高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存1.经过客户验证的企业级Hadoop版本,储系统中得到广泛应用,已经成为海量数据存储的事实标准。稳定可靠随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访2.图形化安装、管理、监控工具,自动进问。传统的存
2、储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成行集群配置优化为了业务发展的瓶颈和障碍。3.改进的HDFS文件I/O算法,提高系统HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地扩展性,适合不同配置服务器组成的多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆集群性的发展。HDFS可以提供以下特性:4.根据HDFS数据的热点程度动态调整数据复制策略,提高HDFS系统吞吐量•可自我修复的分布式文件存储系统5.HDFS和MapReduce的高可靠性增强•
3、高可扩展性,无需停机动态扩容6.跨区域数据中心的HBase超级大表,•高可靠性,数据自动检测和复制位置透明的数据访问和全局汇总•高吞吐量访问,消除访问瓶颈7.HBase大表跨数据中心远程双向复制,•使用低成本存储和服务器构建适合异地灾备8.HBase高级Region负载均衡算法,适分布式文件系统HDFS特性合多应用、多用户高吞吐量访问对于一个较大的文件,HDFS将文件的不同9.基于HBase的更高性能的分布式聚合HDFS的每个数据块分布在不同机架的一组服部分存放于不同服务器之上。在访问大型文和统计务器之上,在用户访问时,HDFS将会
4、计算使件时,系统可以并行从服务器阵列中的多个用网络最近的和访问量最小的服务器给用户服务器并行读入,增加了大文件读入的访问10.HBase的不同表或不同列族的复制份提供访问。由于数据块的每个复制拷贝都能带宽。数精细控制提供给用户访问,而不是仅从数据源读取,通过以上实现,HDFS通过分布式计算的算法,HDFS对于单数据块的访问性能将是传统存将数据访问均摊到服务器阵列中的每个服务储方案的数倍。器的多个数据拷贝之上,单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破,提供了极高的数据吞吐量。英特尔Hadoop发行版目录)MasterMe
5、tadata(namespace,replicas,...)Metadataopstblocklocations,...NameNode/foo/bar,block1->node1,node3,node6分布式文件系统HDFS简介...........................1(createfile,ge...分布式文件系统HDFS特性..................................1ClientDatawriteBlockassignment分布式数据库HBase简介...................
6、..........2Da分布式数据库HBase的特点和优势................2taread数据模型及其特点.......................................................3DataNodeDataNodeDataNode...分布式计算框架MapReduce简介...............31555SlavesDataDataMapReduce适合处理的任务................................42Replication3Replication
7、13数据仓库Hive简介.........................................4Hive特点............................................................................5Hive系统结构.................................................................5无缝容量扩充高度容错数据处理Pig简介.......................................
8、....5HDFS将文件的数据块分配信息存放在NameHDFS文件系统假设系统故障(服务器、网络、日志收集工具Flume简介..............................5Node服务器之上,文件数据块的信息分布存储故障
此文档下载收益归作者所有