欢迎来到天天文库
浏览记录
ID:50783083
大小:120.36 KB
页数:10页
时间:2020-03-14
《基于Spark on ceph的智慧旅游大数据应用方案.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于Sparkonceph的智慧旅游大数据应用方案 电子技术115基于hSparkonceph的智慧旅游大数据应用方案付文涛1赵松克2杨洁兰( 1、桂林电子科技大学卫星导航定位与位置服务国家地方联合工程研究中心广西桂林541004; 2、桂林电子科技大学广西精密导航技术与应用重点实验室广西桂林541004)摘要旅游数据具有多源、异构、海量等特点,靠传统的数据库几乎无法分析动辄以TB计的数据,大数据处理技术的出现为海量数据的分析挖掘提供了解决方案。 ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。 但是要实现不同分析人员快速启动分析集群,并可以访问共享
2、数据集,海量数据的存储和共享是一大关键问题。 Ceph是一个统一的分布式存储系统,可以提供较好的性能、可靠性和可扩展性。 因此,研究spark集群工作在基于ceph的数据存储之上,能降低海量数据的分析成本,提升分析效率。 关键词旅游大数据;Spark;ceph引言旅游数据具有多源、异构、海量等特点,旅游对象的位置轨迹和行为数据具有高动态性及多粒度的特点,不管是哪种数据类型都称的上是海量。 互联网拥有长尾的特点,覆盖的客户群广,靠传统的数据库几乎无法分析动辄以TB计的数据[1]。 一个用户有了出游意向,比如预算,意向目的地等信息之后,系统需要能智能的去给他推荐相应的产品套餐,简化
3、用户的选择过程,帮他打包好所有的服务,这些也需要系统能在很短的时间内通过多维度的数据整合来给出建议,既要精确又要快,这就离不开对于大数据技术的运用。 面对海量的旅游数据,要实现不同分析人员快速启动分析集群,并可以访问共享数据集,海量数据的存储和共享是一大关键问题。 ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。 最初在xx年由加州大学伯克利分校的AMPLab开发,并于xx年成为Apache的开源项目之一。 Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍[2]。 除了Map和Redu
4、ce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。 开发者可以在一个数据管道用例中单独使用某一功能或者将这些功能结合在一起使用。 Spark可以基于自带的standalone集群管理器独立运行,也可以部署在ApacheMesos和HadoopYARN等集群管理器上运行,并可以访问存储在HDFS、Hbase、Cassandra、AmazonS 3、本地文件系统等等上的数据。 Ceph是一个统一的分布式存储系统,设计初衷是提供较好的性能、可靠性和可扩展性[3]。 目前已得到众多云计算厂商的支持并被广泛应用。 RedHat及OpenStack都可与Ceph整合以支持
5、虚拟机镜像的后端存储。 Ceph可以同时提供对象存储、块存储、文件系统存储三种功能,其中对象存储提供了当前流行的RESTful协议的网关,并且兼容亚马逊S3和Openstack平台swift对象存储,作为对象存储可以对接网盘类应用以及HLS(LiveStreaming)流媒体视频应用等。 本文提出了spark集群工作在基于Ceph的数据存储之上的解决方案,可有效降低海量数据分析成本,提升分析效率。 1.方案设计目前的spark集群主要工作在基于HDFS的数据存储之上,在此过程中出现了一些常见问题。 (1)当多个团队共享一个大的集群时,共享相同分析群集的团队经常进度受阻,因为其他人
6、的工作通常会阻止他们的工作按时完成。 (2)此外,一些团队希望在他们的集群上保持旧分析工具版本的稳定性,而他们的合作团队需要加载最新和最好的工具版本。 (3)因此,许多团队需要他们自己的独立分析集群,从而他们的工作得以不会与其他团队竞争资源,和根据自己的需求定制集群,每个团队独享一个集群,每个集群都有一份PB级数据副本。 (4)但是,每个单独的分析群集通常都有自己的非共享HDFS数据存储——于是产生了数据孤岛。 (5)为了提供跨数据孤岛的相同数据集的访问,数据平台团队经常在HDFS孤岛之间复制数据集,试图使它们保持一致和最新。 (6)因此,分析人员最终维护了许多独立的固定分析集
7、群(一种情况下为50多个),每个集群都有自己的HDFS数据孤岛,其中包含PB级数据的冗余副本,同时保持容易出错的复杂脚本以保持数据集在仓库中的更新。 (7)但是,在各种基于HDFS的数据仓库上维护5份,10份或20份多PB级数据集的成本对许多公司(包括资本支出和运营支出)来说都是成本过高的。 事实上,为解决多个团队共享支持启动/挂起、可共享数据集的集群的问题,AWS(亚马逊云)生态系统在几年前通过HadoopS3A文件系统客户端
此文档下载收益归作者所有