欢迎来到天天文库
浏览记录
ID:31918569
大小:70.00 KB
页数:9页
时间:2019-01-27
《基于云计算的web数据挖掘(免积分)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、.第38卷第1OA期2011年l0月计算机科学ComputerScienceVo1.38No.10A0ct2011基于云计算的Web数据挖掘程苗(中国科学技术大学管理学院合肥230026)摘要因特网是一个巨大的、分布广泛的信息服务中心,其上产生的海量数据通常是地理上分布、异构、动态的,复杂性也越来越高,若用已有的集中式数据挖掘方法则不能满足应用的要求。为了解决这些问题,提出了一种基于云计算的web数据挖掘方法:将海量数据和挖掘任务分解到多台服务器上并行处理。采用Hadoop开源平台,建立一个基于Apriori算法的并行关联规则挖掘算法来验证了该
2、系统的高效性。还提出“计算向存储迁移”的设计思想,将计算在数据存储节点就地执行,从而避免了大量数据在网络上的传递,不会占用大量带宽。关键词云计算,数据挖掘,Map/Reduce,关联规则WebDataMiningBasedonCloud-computingCHENGMiao(SchoolofManagement,UniversityofScienceandTechnologyofChina,Hefei230026,China)AbstractInternetisahugeandwidelydistributedinformationservic
3、ecenter,thevastamountsofdatageneratedontheInternetareusuallygeographicallydistributed,heterogeneous,dynamicandbecomemorecomplex,itcarlnotmeettherequirementsifweusetheexistingcentralizeddataminingmethods.Tosolvetheseproblems,proposedacloudcompu—ting-basedWebdataningmethod,the
4、massivedataandminingtaskswillbedecomposedonmultiplecomputersparallelyprocessed.WeuseopenplatformHadooptOestablishaparallelassociationrulesminingalgorithmbasedonApriori,andittestsandveriftestheefficiencyofsystem.Thispaperproposedadesignthinkingthat“migratethecalcu—lationtothe
5、store”,thecalculationwillbeimplementedonthelocalstoragenodes,thusitcanavoidthelargeamountofdatatransmissiononthenetwork,andwi11nottakealotofbandwidtb.KeywordsCloud-computing,Datamining,Map/Reduce,Associationrules1概述随着Internet技术的迅猛发展,互联网上的数据呈指数形式飞速增长,如何在这个全球最大的数据集合中发现有用信息成为数据
6、挖掘研究的热点。Web数据挖掘是建立在对web上海量数据分析的基础上,利用数据挖掘算法有效地收集、选择和存储所感兴趣的信息以及在日益增多的信息中发现新的概念和它们之间的关系,实现信息处理的自动化。这对企业获取有用可靠的外界信息,商业运作过程中收集、分析数据从而做出正确决策有着十分重要的意义。Web数据挖掘主要是以网络日志为研究对象,利用数据...挖掘技术发现用户行为的潜在规律。目前,基于网络日志的用户行为模式研究已在网络安全、电子商务、远程教育等多个领域得到了广泛的应用,是当前的热点研究之一。网络日志文件中的数据主要包括URL请求、页面间链接的
7、拓扑结构、注册用户特征等。采用关联规则分析,可获取用户页面访问行为间的关系;采用聚类分析,可将特征相似的用户或页面归并分组;采用分类分析,可对用户行为特征进行归类识别;采用频繁序列模式分析,可获取用户访问习惯。这些常用数据挖掘方法获取的用户行为模式,解决了页面自动导航、页面重要性评价以及改进网站设计、提高网站运营效益等问题。由于因特网本身所具有的分布广泛、用户众多等特性,也使得其上所产生的数据是海量的、地理上分布的、异构的、动态的,这给现有的数据挖掘系统带来了难题:处理这些数据的复杂度很高,系统的计算能力很难达到要求。目前,Web日志挖掘还有待
8、研究的问题主要有两个:一是如何整合与处理分布式的Web日志;二是如何开发出高性能、可伸缩的分布并行的挖掘算法,保证挖掘的效率。为了解决高性能计算问题,
此文档下载收益归作者所有