欢迎来到天天文库
浏览记录
ID:31997881
大小:3.83 MB
页数:89页
时间:2019-01-30
《大规模数据聚类技术的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、电子科技大学硕士学位论文大规模数据聚类技术研究与实现姓名:钱彦江申请学位级别:硕士专业:计算机应用技术指导教师:李毅超20090501摘要近年来,随着数据采集和存储技术的飞速发展,尤其是互联网的广泛应用,很多领域都积累了大量的数据。为了从数据中发现有用的信息和知识,人们结合机器学习,数理统计,人工智能,数据库等技术,提出了数据挖掘。聚类分析作为数据挖掘中的重要内容和基本工具,在发展迅速的互联网领域中有着广泛的应用,如搜索引擎中对搜索结果进行聚类,社区产品中通过用户聚类来发现兴趣相似用户,新闻网站通过聚类来挖掘焦点新闻,还有在问答系统中聚合相似的提问等都是互联网上很前沿的应用。本文密切联系这些
2、互联网实际应用,研究了大规模数据聚类技术,主要工作如下:(1)详细总结了大规模数据聚类技术。在深入学习各种聚类算法的基础上,本文详细总结了可以对大规模数据进行处理的聚类方法,具体有顺序法、分割法、取样法、总结法和并行分布式法。(2)提出并实现了一个基于MPI并行计算的层次聚类算法。首先简要介绍了并行计算和MPI并行编程标准,然后以互联网新闻网页为聚类对象,提出了一个串行的凝聚层次聚类算法,接着对其进行了并行化改进,试验结果表明了该并行算法的正确性和有效性。3)深入学习并描述了eanopy-kmeans聚类算法在Hadoop平台上的实现细节和执行流程。首先介绍了Ooogle的MapReduce
3、分布式计算框架和Hadoop分布式计算平台,然后在Hadoop平台上,实现了canopy-kmeans聚类算法。4)设计实现了一个通用的可扩展聚类系统。本文对该系统的设计思路、整体框架、执行流程、模块设计和主要数据结构等都进行了详实的描述。本文的贡献和创新主要体现在下面三个方面:1)经过大量的调研,总结了适合对大规模数据进行聚类的方法。2)尝试了基于并行和分布式计算的聚类。主要贡献有:一、提出了一个串行的凝聚层次聚类方法,并使用MPI并行计算对其进行了改进;二、对在Hadoop平台上实现canopy-krneans聚类的细节进行了详尽描述。3)设计了一个聚类系统。创新点体现在:一、系统接口开
4、放,模块间耦合性小,具有良好的可扩展性:二、提供灵活的聚类算法间的调度结合策略,可满足摘要不同的聚类需求;三,配置方法新颖,使用Json格式(一种轻量级XML格式)文件进行系统配置。关键词:聚类,层次聚类,K均值,并行和分布式计算,大规模数据IIAbstractWiththerapiddevelopmentofdatacollectionandstoragetechnology,especiallythepopularuseoftheWorldWideWebasaglobalinformationsystem,lotsofapplicationfieldsnowadaysaredeluged
5、withdata.Dataminingtechnology,combiningwithdatabase,machinelearning,statisticsandartificialintelligencemethods,isutilizedtofindtheusefulinformationandknowledgefromthevastamountsofdata.Clusteringanalysis,asanimportantpartandessentialtoolindatamining,hasbeenwidelyusedinthebloomingIntemetapplications,
6、suchassearchresultsclusteringinthesearchengine,interest·similarpeoplegroupingintheInternetcommunity,hotnewsdiscoveryinthenewswebsites,correlativeitemsaggregationintheQuestion—Answersystem.Bytyingupwi也thesepracticalIntemetapplications,thisthesisdiscussesclusteringtechniquesforprocessinglargedatasets
7、.Tobespecific,thefollowingworkhasbeendoneinthisstudy.1)Clusteringtechniquesforlargedatasetsalesummarized.Basedonathoroughstudyofclusteringalgorithms,wesumupinthisstudythosemethods,suchassequentialprocessing
此文档下载收益归作者所有