基于虚拟机的hadoop分布式聚类挖掘方法研究与应用

基于虚拟机的hadoop分布式聚类挖掘方法研究与应用

ID:10621966

大小:54.50 KB

页数:4页

时间:2018-07-07

基于虚拟机的hadoop分布式聚类挖掘方法研究与应用_第1页
基于虚拟机的hadoop分布式聚类挖掘方法研究与应用_第2页
基于虚拟机的hadoop分布式聚类挖掘方法研究与应用_第3页
基于虚拟机的hadoop分布式聚类挖掘方法研究与应用_第4页
资源描述:

《基于虚拟机的hadoop分布式聚类挖掘方法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于虚拟机的Hadoop分布式聚类挖掘方法研究与应用第1章绪论1.1课题研究的背景和意义伴随虚拟化技术的成熟与发展,很多公司和高校为了降低成本、提升资源利用率,选择使用虚拟化技术来构建自己的数据中心。公司和高校内部每天产生的海量数据具有很高的挖掘价值,如何在虚拟化数据中心中搭建高效的分布式计算应用是很值得研究的课题。基于虚拟化技术,不需要购置新的服务器就能实现快速部署,完成数据挖掘任务,节约了成本。随着互联网、云计算的发展,我们已经进入了大数据时代。互联网上每时每刻都在产生海量的应用数据,这些数据蕴含了大量不易发现的价

2、值信息。通过计算机应用自动从海量数据中提取出这些有价值的、潜在的、隐藏的信息具有十分重要的意义和广泛的应用前景。数据挖掘是知识发现中一个重要步骤,并广泛应用于众多领域,如信息管理、商业、医疗、金融等。大数据时代的到来,使得原有的数据挖掘方法和工具已不能满足实际需要,系统的可扩展性、运行效率以及对异构数据的处理能力都需要提升,因此需要为该类数据的挖掘寻求新的解决方案。MapReduce作为一种分布式环境下的并行计算模型,可以对大规模数据集的分析提供良好的支持,如今在开源领域,Hadoop作为该模型的一个具体实现,具有对硬

3、件配置要求低、容错性好和易扩展等优点,广泛地被学术界人士和商用系统所应用、研究和扩展。然而目前双核以及多核计算机的应用越发普遍,单核计算机将会被淘汰,新型物理机构成的Hadoop集群中,位于每个节点的不同任务间势必进行内存、CPU和I/O等资源的竞争,某种资源的不足会使其他过剩资源闲置、产生浪费,开销增长,影响系统性能。除此之外,Hadoop分布式框架虽然具有高容错性,可在由高失败率的节点组成的大集群内成功完成作业任务,但是有的节点失效恢复需要人工介入,有时会丢失已经计算完成的部分数据,降低系统运行效率。.1.2数据挖

4、掘技术的研究现状与展望数据挖掘作为计算机科学中一个热门的研究对象,其研究领域具有综合性和交叉性等特点,除常见的包括分类、聚类、关联等技术之外,还引入了许多交叉学科的技术,包括概率统计、机器学习、模式识别、高性能计算、人工智能等[1],应用于基因科学[2]、生物图像处理[3]、医学诊断[4]、教育教学[5,6]、网络数据分析[7]、社交媒体行为分析[8]等科学研究和生活服务的方方面面。从统计学发展而来的聚类分析方法,已经在各个领域被大量应用和改进,逐渐变得更加完善并形成体系,数据挖掘的相关文献中早已产生了大量的聚类分析方

5、法,大体归为基于划分、层次、密度、网格的方法,以及综合统计学和神经网络等的方法。所有聚类方法在具有各自优点的同时也有不同方面的缺陷,处理海量数据时,普遍存在计算效率和分析结果正确率二者不可兼顾的问题。然而,分布式计算在数据处理上有明显优势[9],Google公司提出并实现了一个很好的分布式计算框架,其MapReduce计算模型[10,11]能够在由很多计算机所组成的集群上并行化地进行海量数据分析和处理[12],通过Map函数的设计将系统的输入数据组织成键值对的形式,再通过Reduce函数的处理将其结果中具有相同键值的数

6、据进行合并,该并行处理思想能够解决大多数实际的大数据的处理和分析问题。Google商用云计算的具体实现为机密信息,而开源社区Apache仿照Google云计算架构设计并实现了Hadoop系统,采用了Java语言开发,HDFS(HadoopDistributedFileSystem,分布式文件系统)、MapReduce、HBase分别对应了Google的GFS(GoogleFileSystem)、MapReduce和BigTable的开源实现。..第2章相关技术概述2.1聚类挖掘的数据结构在聚类分析中,需要在进行聚类计算

7、之前对原始数据进行预处理,一般采用差异矩阵来进行聚类分析,而差异矩阵可以通过原始数据的数据矩阵来得到。假设原始数据集中包含n个待聚类对象,每个数据对象用m个不同的属性来描述,其对应的数据矩阵表示则包含n行m列,每一行便代表一条数据,每一列代表该条数据在各维属性上的值,如图2-1所示。如今Hadoop发展成了具有众多子系统的庞大体系,虽然其核心内容是MapReduce和Hadoop分布式文件系统(HDFS),但Hadoop下的mon、Avro、Chukeans算法、K-Medoids算法、最大距离聚类(Max-Dista

8、nceClustering)、最近邻聚类(NearestNeighbor)等,这些算法应用于小数据集聚类能够很好地工作,但想将其应用到大规模数据集,往往由于时间和空间复杂度的提高不能取得理想的效果,需要对其进行改进和扩展。CLARA(ClusteringLargeApplication)和CLARANS(ClusteringLar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。