欢迎来到天天文库
浏览记录
ID:24060029
大小:50.00 KB
页数:3页
时间:2018-11-12
《web数据挖掘在云计算平台的实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Web数据挖掘在云计算平台的实现:L :TP399:A:1009-3044(2011)19-4526-03 iningintheRealizationofCloudputingPlatforms YANGNan,LUOSheng-xian (SchoolofInformationScienceandTechnology,ChengduUniversityofTechnology,Chengdu610051,China) Abstract:TheL aster和大量Chunkserver(块服务器)构成,Master中的所有信息都存储在内存里,启动时信息从Chun
2、kserver中获取,提高了Master的性能和吞吐量,也有利于Master当掉后,很容易把后备机器切换成Master。 1.2数据管理技术 云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。云计算系统中的数据管理技术主要是Google的BigTable[3]数据管理技术和Hadoop团队开发的开元数据管理模块HBase。 BigTable是建立在GFS,Scheduler,LockService和MapReduce[4]之上的一个大型的分布式数据库,与传统的数据库不同,他把所有数据都作为对象来处理,形成一个巨大的表格,用来
3、分布存储大规模结构化数据。 Google的很多项目使用BigTable来存储数据,包括X页查询,Googleearth和Google金融。这些应用程序对BigTable的要求各不相同:数据大小不同,反应速度不同。对于不同的要求,BigTable都成功的提供了灵活高效的服务。 1.3编程模型的技术 云计算采用类似MapReduce的编程模式,其不仅仅是一种编程模型,同时也是一种高效的任务调度模型。它只需要编程人员将精力放在应用程序本身,如何通过分布式的集群来支持并行计算则交由平台处理,保证云计算后台复杂的并行执行和任务调度过程向用户和编程人员透明。 MapReduce
4、主要通过“Map(映射)”和“Reduce(化简)”这两个步骤来并行处理大规模的数据集。首先,Map会对有很多独立元素组成的逻辑列表中的每一个元素进行指定的操作,且原始列表不会被更改,会创建多个新的列表来保存Map的处理结果。当Map工作完成之后,系统会接着对新生成的多个列表进行清理和排序,之后,会将这些新创建的列表进行Reduce操作,也就是对一个列表中的元素根据key值进行适当的合并。MapReduce模型的计算流程如图1所示。 2ining)、ining)、ining)。 Web结构挖掘是从站点的组织结构和页面结构中推导出知识,对Web页面间的结构进行挖掘,找出数
5、据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。 Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。 Web使用挖掘通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。 2.4WebGraph简介 在Web内容挖掘和结构挖掘中,为了更好的存储和表达L[7],GraphML是一种基于XML用于描述图(Graph)的通用文件格式,十分适合在生成、存储和处理Graph中使用。如果Tran
6、sactionsonputerSystem,2008,26(2). [4]JeffreyDean,SanjayGhemapliedDataProcessingonLargeClusters,OSDI2004. [5]霍丽峰.].CormellUniversity,2007. [7]GraphML,graphml.graphdraber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006.
此文档下载收益归作者所有