Kafka到HIVE数据迁移工具的设计与实现

Kafka到HIVE数据迁移工具的设计与实现

ID:39218374

大小:1001.96 KB

页数:32页

时间:2019-06-27

Kafka到HIVE数据迁移工具的设计与实现_第1页
Kafka到HIVE数据迁移工具的设计与实现_第2页
Kafka到HIVE数据迁移工具的设计与实现_第3页
Kafka到HIVE数据迁移工具的设计与实现_第4页
Kafka到HIVE数据迁移工具的设计与实现_第5页
资源描述:

《Kafka到HIVE数据迁移工具的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计(论文)设计(论文)题目Kafka到HIVE数据迁移工具的设计与实现姓名:刘凯学号:201100800145学院:机电与信息工程学院专业:软件工程年级2011级指导教师:周强26目录摘要II1前言11.1本课题解决的问题12背景技术22.1分布式消息系统Kafka22.1.1简介22.1.2设计架构22.1.3保证消息转运过程中可靠性的方式32.2基于Hadoop的数据仓库HIVE32.2.1Hive架构42.2.2HIVE执行原理42.2.3数据序列化与反序列化52.3分布式计算框架MapRed

2、uce52.3.1主要功能52.3.2数据处理过程63设计思路73.1计算框架的选择73.2拉取数据方式73.3保证Kafka与Hive数据兼容方式83.4保证消息处理的可靠性方式83.5启动方式8264整体架构84.1模块设计94.2任务调度104.2.1配置项114.2.2资源均衡114.3数据拉取124.4数据存储124.4.1Schema注册134.4.2反序列化及分区134.4.3数据落地存储134.5历史记录134.5.1数据格式144.5.2记录异常信息144.5.3统计信息145软件测试1

3、45.1测试目的145.2测试环境155.2.1硬件环境155.2.2软件环境155.3寻找性能瓶颈155.3.1测试依赖服务的性能165.3.2测试任务执行各阶段时间占用16265.3.3测试任务分配策略175.3.4测试数据落地插件配置项185.4稳定性测试195.4.1测试对数据的依赖性195.4.2测试对服务的依赖性195.4.3处理多表时的稳定性215.5性能测试225.5.1测试单个任务性能225.5.2测试多个任务执行性能225.5.3测试单条消息长度对性能的影响235.6测试结论236结论

4、246.1总结246.2展望24参考文献25谢辞2626摘要数据加载无疑是大数据技术的基础。Hadoop生态系统为处理超大数据集提供了整套合乎成本效益的解决方案。其中的数据仓库HIVE为数据分析人员提供了类SQL的方式来维护海量数据,并对数据进行挖掘。但在数据落地存储之前,往往需要使用消息队列的技术,来对大量数据的加载过程进行缓冲,提高峰值处理能力并提供异步通信的功能。本文主要实现的功能是基于Hadoop提供的计算框架将消息队列与数据仓库进行对接,以分布式的处理方式从消息队列中拉取数据并转换成数据仓库HI

5、VE指定的格式,然后存储到分布式文件系统中,方便数据分析人员直接处理数据。本文首先介绍了数据加载过程的背景技术,然后描述数据迁移工具的设计重点及软件架构,并给出软件的测试结果。关键词:数据迁移、大数据、消息队列、数据仓库26AbstractThereisnodoubtthatdataloadisthebasisofbigdatatechnology.TheHadoopecosystemhaveprovideasetofcostefficientsolutionsfortheprocessingoflarg

6、edatasets.ThedatawarehouseHIVEwhichprovidesLike-SQLwaytomaintainmassivedatafordataanalysis,anddatamining.ButbeforetheweStoragethedata,Qrdinarily,weneedtousethetechnologyofmessagequeuetoprovideadatabufferinthetheprocessofloadingbig,improvepeakcapacityandpr

7、ovideasynchronouscommunicationfunction.ThemaincontributionofthispaperistobuildapipelinebetweenthemessagequeueanddatawarehousebasedonthecalculationframeworkprovidedbyHadoop.useastableandefficientwaytoExtract,Transformandloadmessagesfrommessagequeuetodatawa

8、rehouse,Itisconvenientfordataanalyststominingthepotentialvaluebehindofthebigdata.Thispaperfirstintroducesthebackgroundofdataloadingtechnology,thendescribesthedatamigrationtool’sdesignandarchitecture,atlastgivethisso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。