基于hadoop和hive数字校园的数据仓库研究[权威资料]

基于hadoop和hive数字校园的数据仓库研究[权威资料]

ID:36004339

大小:22.00 KB

页数:8页

时间:2019-04-29

基于hadoop和hive数字校园的数据仓库研究[权威资料]_第1页
基于hadoop和hive数字校园的数据仓库研究[权威资料]_第2页
基于hadoop和hive数字校园的数据仓库研究[权威资料]_第3页
基于hadoop和hive数字校园的数据仓库研究[权威资料]_第4页
基于hadoop和hive数字校园的数据仓库研究[权威资料]_第5页
资源描述:

《基于hadoop和hive数字校园的数据仓库研究[权威资料]》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Hadoop和Hive数字校园的数据仓库研究本文档格式为WORD,感谢你的阅读。  摘要在校园信息化过程中,传统的业务平台升级方法复杂,硬件成本太高,软硬件利用率低等缺点,本文在云计算基础上构建用于处理海量数据的数字校园仓库系统。该系统基于Hadoop+Hive框架实现对海量数据的并行处理,降低系统开发复杂度,提高高效性。  关键词云计算海量数据HadoopMap-ReduceHive  TP315A  DataWarehouseResearchBasedonHadoopandHiveDigitalCampus  SUShupeng  (Guangxi

2、TechnologicalCollegeofMachineryandElectricity,Nanning,Guangxi530007)  AbstractIntheprocessofcampusinformation,thetraditionalmethodofcomplexbusinessplatformupgrades,hardwarecostistoohigh,andlowutilizationofhardwareandsoftwareshortcomings,thispaperconstructsadigitalcampussystemforpr

3、ocessingmassivedatawarehouseinthecloudcomputingbasis.ThesystemisbasedonHadoop+Hiveframeworktoachievethemassivedataparallelprocessing,reducesystemdevelopmentcomplexityandimproveefficiency.  Keywordscloudcomputing;massivedata;Hadoop;Map-Reduce;Hive  随着以云计算、物联网等为代表的新型信息技术的不断涌现,校园信息化过

4、程中各系统产生结构化以及非结构化海量数据,传统业务平台的数据仓库已无法满足需求,构建新的大数据存储及并行处理、分析的架构应运而生。Hadoop是利用廉价的集群设备进行计算大规模数据的分布式平台,其主要特点高效率、可靠、扩展能力强。本文基于Hadoop和Hive构建数字校园的数据仓库,快速对数字校园不断膨胀的数据进行处理和分析,为各部门提供有价值的业务决策。  1Hadoop与Hive  1.1Hadoop  Hadoop是由Apache公司开发的开源分布式存储和计算系统,其由两大核心部件组成:HDFS(HadoopDistributedFileSystem

5、)和M/R(Map/Reduce),HDFS是存储系统,存储文件会被分割成多个文件块,每个文件块被分配存储到HDFS数据节点上,且会根据配置通过复制文件块来保证数据的安全性。M/R用于大规模数据集的并行运算模型。一个作业通常会把输入的数据集切分为若干独立的数据块,M/R把数据块分发给集群的节点进行Map任务计算,节点会周期性向主节点报告完成的工作和状态,如果节点存在故障,主节点把数据分发到其他节点完成计算。框架把Map的输出的结果交给Reduce任务,作业整个计算过程的数据都存储在HDFS中,框架负责任务的调度和监控。  1.2Hive  Hive是基于H

6、adoop的开源数据仓库工具,提供了一套类数据库的数据存储和处理机制,用于存储和处理海量结构化数据,它把海量数据存储于Hadoop文件系统,Hive提供了完整的sql查询功能,将用户编写的SQL语句进行解析和转换,最终生成一系列基于Hadoop的map/reduce任务,通过执行这些任务完成数据处理。Hive拥有元数据存储,主要用于存储模式和统计信息,这些在数据探索,查询优化和查询编译中很有作用。  2基于Hadoop和Hive数据仓库  2.1Hive的特性  (1)灵活的存储引擎。Hive没有固定的数据存储格式,用户可以自由组织Hive中的表,加载数据

7、的过程中,不需要进行数据格式的转换,只需告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。所以Hive加载数据只需将数据内容复制到相应的HDFS目录中。(2)高效执行引擎。Hive的编译器对源代码进行语法分析、语义分析并生成目标代码生成,Hive基于MapReduce,Hive的Sort和GroupBy都依赖MapReduce,而MapReduce相当于固化了执行算子,Map的MergeSort必须执行,GroupBy算子只有一种模式,Reduce的Merge-Sort也必须选。(3)容错机制。Hive的执行计划在MapReduce框架上以作

8、业的方式执行,每个作业的中间结果文件写到本地磁盘,最终输出文件写到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。