欢迎来到天天文库
浏览记录
ID:20665288
大小:131.00 KB
页数:11页
时间:2018-10-14
《基于mapreduce的购物篮分析算法中文翻译》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于MapReduce的购物篮分析算法自从谷歌公司在其分布式文件系统(GFS)上搭建了MapReduce平台,MapReduce方法便成为计算大规模数据的流行方法,紧跟其后的是亚马逊网络服务(AWS)提供的棊于低成本计算结点的ApacheHadoop平台。映射/归约鼓励在MapReduce上重新设计和改造已有的串行算法,变为受限的并行化编程,所以本文提出了基于先验概率的MapReduce购物篮分析算法。两个算法用来适应已经存在的Apriori-algorithm(Apriori-algorithm是关联规则里一项基本算法)和建、一个簡革的算法来对数据集进行排序并转化成(键,值)对形式以适应Ma
2、pReduce。算法在亚马逊EC2Map/Reduce平台上运行。实验结果表明Apriori-algorithm的性能并不如这个简单算法。使用该简单算法,基于Map/Reduce后程序通过增加更多的节点可提高计算性能,但在某种程度上存在一个瓶颈,不允许进一步的性能改善。文章认为分布式;操作、聚合、在Map/Reduce上归约数据是导致性能瓶颈的原因。(2013JohnWiley&Sons,Ltd.)介绍随着像社交媒体、智能手机和传感器网络每时每刻产牛.TB或PB规模的数据,使用传统系统来存储这些数据变得更加困难。而且,这些数据都是非结构化的大数据。例如,谷歌受到持续存储大数据并发现现有的文件系
3、统不足以有效地处理这些数据的问题的困扰。此外,传统系统的计算能力和平台对人数据无效,这也迫使谷歌搭建谷歌文件系统(GFS)和Map/Reduce并行计算平台,这促进了ApacheHadoop项目的产牛.oHadoop是一个并行编程平台,建立在Hadoop分布式文件系统和映射/归约计算模型之上,用来处理像(键,值)对这样的数据。Hadoop受到了商业计算的褒奖,因为全球商业事务拥有如网络交易□志文件这样的人规模数据。在过去的几年中,Hadoop已经在利用数据挖掘处理商业智能方面的大数据。在Hadoop吋代意味着那些执行串行计算的传统算法需要重新设计或转换为MapReduce算法。因此,在本文中,
4、提出了两个基于MapReduce的购物篮分析(MBA)算法,并分别在而弹性计算云(EC2)和亚马逊网络服务(AWS)的简单存储服务(S3)平台上运行。云计算已经被认为是已使用多年的服务,包括主机服务、web邮件服务、文档共享服务、地图API服务。它分为软件即服务(SaaS),平台即服务(PaaS)和基础设施即服务(IaaS)。SaaS通过网络来提供服务而不是事先安装或维护软件。例如,web邮件服务归类到SaaS里。采用PaaS提供计算和存储服务不需要采购硬件或软件,例如托管服务。IaaS是效用计算服务,类似于SaaS,但需要购买服务的时间,比如AWSoAWS为采用Map/Reduce计算模型的
5、商用计算机提供S3、EC2和弹性的MapReduce服务,就像IaaS和SaaS在云计算屮所做的那样,这让普通组织能够以很低的成本获得超算能力。以下章节关注相关性的工作,主要描述了Map/Reduce和Hadoop以及其他相关项目,提出了Apriori(先验的)MapReduce算法,并提出简革的基于MapReduce的购物篮分析算法。最后一部分给出了实验结果。相关工作关联规则或关联分析是最基本的数据挖掘分析技术,其R在发现像顾客购买行为等活动的共生关系。这种分析是标准的顺序计算,并在许多关于数据挖掘的书籍都讨论过了。Aster数据公司有一个采用SQLMapReduce框架的一个产品。Aste
6、r提供nPathSQL处理存储在数据库中大数据。购物篮分析算法也执行在该框架下,但它是棊于SQLAPI的MapReduce数据库。Jongwook等人使用/规则项目对/集合的/先验属性/实现MBA算法。本文的0的是提出和比较两个算法,然后将数据转换成(键,值)对在Map/Reduce平台上执行算法程序。Hadoop平台上的Map/ReduceMap/Reduce是人工智能领域的函数式编程算法。谷歌公司为了解决分布式计算环境下大规模数据集的分析问题而重新引入Map/Reduce,它再一次被突出强调了。具体来说,它由两个函数组成,“映射”和“归约”。这两个函数都处理(键,值)对这样的结构化数据。并
7、行计算下Map/ReduceMap/Reduce编程平台实现于ApacheHadoop项目中,是Hadoop项目的产晶之一,该项目的目标是开发可靠的、可仲缩的和分布式计算的开源软件。Hadoop可以组合成千上万个节点一起来处理和计算PB或TB规模的数据。Hadoop项FI的灵感来自谷歌公司的MapReduce和GFS,这两个项目的诞生是因为此时谷歌己经需要处理大数据集的信息检索和分析。它被一个全球
此文档下载收益归作者所有