基于hadoop和hive数字校园的数据仓库研究[权威资料]

ID：36004339

大小：22.00 KB

页数：8页

时间：2019-04-29

资源描述：

《基于hadoop和hive数字校园的数据仓库研究[权威资料]》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、基于Hadoop和Hive数字校园的数据仓库研究本文档格式为WORD,感谢你的阅读。　　摘要在校园信息化过程中，传统的业务平台升级方法复杂，硬件成本太高，软硬件利用率低等缺点，本文在云计算基础上构建用于处理海量数据的数字校园仓库系统。该系统基于Hadoop+Hive框架实现对海量数据的并行处理，降低系统开发复杂度，提高高效性。　　关键词云计算海量数据HadoopMap-ReduceHive　　TP315A　　DataWarehouseResearchBasedonHadoopandHiveDigitalCampus　　SUShupeng　　（Guangxi

2、TechnologicalCollegeofMachineryandElectricity，Nanning，Guangxi530007）　　AbstractIntheprocessofcampusinformation，thetraditionalmethodofcomplexbusinessplatformupgrades，hardwarecostistoohigh，andlowutilizationofhardwareandsoftwareshortcomings，thispaperconstructsadigitalcampussystemforpr

3、ocessingmassivedatawarehouseinthecloudcomputingbasis.ThesystemisbasedonHadoop+Hiveframeworktoachievethemassivedataparallelprocessing，reducesystemdevelopmentcomplexityandimproveefficiency.　　Keywordscloudcomputing；massivedata；Hadoop；Map-Reduce；Hive　　随着以云计算、物联网等为代表的新型信息技术的不断涌现，校园信息化过

4、程中各系统产生结构化以及非结构化海量数据，传统业务平台的数据仓库已无法满足需求，构建新的大数据存储及并行处理、分析的架构应运而生。Hadoop是利用廉价的集群设备进行计算大规模数据的分布式平台，其主要特点高效率、可靠、扩展能力强。本文基于Hadoop和Hive构建数字校园的数据仓库，快速对数字校园不断膨胀的数据进行处理和分析，为各部门提供有价值的业务决策。　　1Hadoop与Hive　　1.1Hadoop　　Hadoop是由Apache公司开发的开源分布式存储和计算系统，其由两大核心部件组成：HDFS（HadoopDistributedFileSystem

5、）和M/R（Map/Reduce），HDFS是存储系统，存储文件会被分割成多个文件块，每个文件块被分配存储到HDFS数据节点上，且会根据配置通过复制文件块来保证数据的安全性。M/R用于大规模数据集的并行运算模型。一个作业通常会把输入的数据集切分为若干独立的数据块，M/R把数据块分发给集群的节点进行Map任务计算，节点会周期性向主节点报告完成的工作和状态，如果节点存在故障，主节点把数据分发到其他节点完成计算。框架把Map的输出的结果交给Reduce任务，作业整个计算过程的数据都存储在HDFS中，框架负责任务的调度和监控。　　1.2Hive　　Hive是基于H

6、adoop的开源数据仓库工具，提供了一套类数据库的数据存储和处理机制，用于存储和处理海量结构化数据，它把海量数据存储于Hadoop文件系统，Hive提供了完整的sql查询功能，将用户编写的SQL语句进行解析和转换，最终生成一系列基于Hadoop的map/reduce任务，通过执行这些任务完成数据处理。Hive拥有元数据存储，主要用于存储模式和统计信息，这些在数据探索，查询优化和查询编译中很有作用。　　2基于Hadoop和Hive数据仓库　　2.1Hive的特性　　（1）灵活的存储引擎。Hive没有固定的数据存储格式，用户可以自由组织Hive中的表，加载数据

7、的过程中，不需要进行数据格式的转换，只需告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。所以Hive加载数据只需将数据内容复制到相应的HDFS目录中。（2）高效执行引擎。Hive的编译器对源代码进行语法分析、语义分析并生成目标代码生成，Hive基于MapReduce，Hive的Sort和GroupBy都依赖MapReduce，而MapReduce相当于固化了执行算子，Map的MergeSort必须执行，GroupBy算子只有一种模式，Reduce的Merge-Sort也必须选。（3）容错机制。Hive的执行计划在MapReduce框架上以作

8、业的方式执行，每个作业的中间结果文件写到本地磁盘，最终输出文件写到

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 8



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于hadoop和hive数字校园的数据仓库研究[权威资料]

基于hadoop和hive数字校园的数据仓库研究[权威资料]

相关文章

相关标签