基于postgresql和spark的可扩展大数据分析平台

基于postgresql和spark的可扩展大数据分析平台

ID:35058247

大小:3.77 MB

页数:83页

时间:2019-03-17

基于postgresql和spark的可扩展大数据分析平台_第1页
基于postgresql和spark的可扩展大数据分析平台_第2页
基于postgresql和spark的可扩展大数据分析平台_第3页
基于postgresql和spark的可扩展大数据分析平台_第4页
基于postgresql和spark的可扩展大数据分析平台_第5页
资源描述:

《基于postgresql和spark的可扩展大数据分析平台》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:(涉密论文填写密级,公开论文不填写)硕士学位论文基于PostgreSQL和Spark的可扩展大数据分析平台作者姓名:程敏指导教师:须成忠研究员白童心副研究员学位类别:工程硕士学科专业:计算机技术研究所:中国科学院深圳先进技术研究院2016年4月ScalableBigDataAnalysisPlatformBasedonPostgreSQLandSparkByMinChengAThesisSubmittedtoTheUniversityofChineseAcademyofSciencesInpartialfulfillmentoftherequirementForthedeg

2、reeofMasterofScienceinEngineeringShenzhenInstitutesofAdvancedTechnologyChineseAcademyofSciencesApril,2016独创性声明我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。作者签名:日期:中国科学院大学硕士学位论文摘要摘要随着大数据的发展,传统数据仓库和数据分析技术正在经历深刻的变革。新兴的数据分析

3、平台逐渐兴起。Hadoop作为面向非结构化数据的批处理分析平台,逐渐成为大数据处理的基准平台。Spark是与Hadoop兼容的分布式计算引擎,它的内存计算模式,实现了相对于Hadoop性能的飞跃,是目前对大数据进行机器学习算法分析的标准选择。新兴平台提供了更多数据分析工具的选择,但是根据商业调查报告显示,SQL查询分析仍是目前大多数企业和公司数据分析的主要模式。而数据规模日益扩大,导致对数据分析的深入程度要求不断增高。如何在保持SQL的前提下增强关系型数据库的分析能力,当前普遍采用的解决方案是MPP分析型数据库和将关系型数据库与其他分析系统并存,但这两种方案都存在一系列纵向扩展和

4、管理问题。为此,本文首次提出基于PostgreSQL和Spark的可扩展大数据分析平台,简称PSS平台,将PostgreSQL的易操作性和Spark强大的计算能力松耦合结合在一起,既保持关系型数据的易操作性和SQL分析能力,也使其拥有了强大的分布式计算能力和机器学习算法能力;对于两个异构平台的松耦合连接,本文基于Thrift框架提出了Dex中间件,向上与PostgreSQL的UDF通信,向下与Spark集群进行通信;对于跨平台的数据传输,本文通过修改Spark内核源码,提出了DexRDD方案,避免了大量的磁盘I/O。PSS平台使用操作很简单,只需要在psql客户端执行SQL功能扩

5、展函数就可以调用Spark集群的算法模型;实验证明,PSS平台有良好的正确性、高效性和扩展性,扩展性体现在数据存储和计算执行在物理上隔离,能够独立进行扩展,用户针对数据源特征的添加自定义算法模型,据此,本文基于PSS平台实现了一个实时交通路况预测系统。关键词:Postgres数据库,UDF扩展,Spark计算框架,内存计算,Dex中间件i中国科学院大学硕士学位论文AbstractScalableBigDataAnalysisPlatformBasedonPostgreSQLandSparkMinCheng(ComputerScience)DirectedByChengzhongX

6、u,TongxinBaiWiththedevelopmentofbigdata,traditionaldatawarehouseanddataanalysisfieldisundergoingprofoundtechnologicalchange.Emergingdataanalysisplatformsgraduallycomeout.Asanunstructureddataanalysisplatformgoodatbatchprocessing,Hadoopisbecomingastandardplatformoflargedataprocessing.Sparkisadi

7、stributedcomputingengineandcompatiblewithHadoop.ItsmemorycomputingmodelmakesitachievealeapinperformancewithrespecttoHadoop,andSparkiscurrentlythestandardtoolformachinelearningalgorithmsonlargedatasets.Newplatformsprovidemorechoiceofdataanalys

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。