基于云计算的海量数据分类算法研究

基于云计算的海量数据分类算法研究

ID:33510258

大小:3.80 MB

页数:48页

时间:2019-02-26

基于云计算的海量数据分类算法研究_第1页
基于云计算的海量数据分类算法研究_第2页
基于云计算的海量数据分类算法研究_第3页
基于云计算的海量数据分类算法研究_第4页
基于云计算的海量数据分类算法研究_第5页
资源描述:

《基于云计算的海量数据分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:密级:学校代码:10165学号:201111235遣掌研耗大擎硕士学位论文基于云计算的海量数据分类算法研究作者姓名:学科、专业:研究方向:导师姓名:张红蕊计算机应用技术数据挖掘张永副教授2014年6月学位论文独创性声明本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果。论文中除特别加以标注和致谢的地方外,不包含他人和其他机构已经撰写或发表过的研究成果.其他同志的研究成果对本人的启示和所提供的帮助,均己在论文中做了明确的声明并表示谢意。学位论文作者签名:3楚幺叠学位论文版权的使用授权书本学位论文作者完全了解辽宁

2、师范大学有关保留、使用学位论文的规定,及学校有权保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查阅和借阅。本文授权辽宁师范大学,可以将学位论文的全部或部分内容编入有关数据库并进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后使用本授权书。学位论文作者签名:缢盛指导教师签名:必签名日期:伽惮年6月厂6日辽宁师范大学硕士学位论文摘要随着大数据时代的到来和互联网的迅猛发展,人类可以采集利用的数据信息迅猛增长,数据量己达到TB级甚至PB级。而传统

3、的数据挖掘技术已经难以适应飞速发展的大数据时代。因此,如何用更快速、更有效的方法从大规模数据中筛选出有技术含量、运用率高的信息成为数据挖掘技术必须面对的棘手问题。云计算是一种用于实现并行计算的模型,它可以将大规模数据的存储和计算能力均匀的分散到由若干机器构成的集群中。集群可以由许多的廉价机器来搭建,在很大程度上降低成本。云计算这种强大的存储和计算能力以及廉价的成本优势,使数据挖掘所面临的难题得以解决。Hadoop作为当前主流的开源云计算平台,适用于处理单机无法处理的大规模数据集。由于系统本身能够对外屏蔽一些内部细节,使得程序员

4、编写和运行用于处理海量数据的应用程序变得更加容易。本论文针对数据挖掘相关分类算法进行了深入研究,并提出将分类算法MapReduce化的方案,主要研究工作如下。1.针对海量数据预处理的瓶颈问题,提出了一种基于MapReduce编程模型的连续属性离散化算法,并给出了算法设计的方法和策略。实验结果表明该算法具有较高的执行效率,适合用于海量数据的快速离散化处理。2.根据大规模数据集在单机上训练和测试时间过长的问题,通过详细分析朴素贝叶斯分类算法的原理及可并行化点,在Hadoop分布式平台下设计并实现了一种并行朴素贝叶斯的数据分类算法。

5、大量实验结果表明该并行化算法,具有较高的执行效率和可扩展性。3.考虑到集成分类方法中各个基分类器对集成结果所做的贡献不同,为各个基分类器赋予权值来表征其对集成分类的重要程度。在权值的确定问题上,使用智能差分进化算法自适应的优化各基分类器的权值。基于此,提出了一种基于差分进化算法的加权投票集成分类算法。实验数据表明,该算法不仅提高了集成分类的效果,还具有较强的泛化能力。关键词:云计算:离散化:朴素贝叶斯:差分进化:集成学习基于云计算的海量数据分类算法研究Researchonclassificationalgorithmofmas

6、sivedatabasedonCloudComputingAbstractWiththerapiddevelopmentoftheInternettechnology,theinformationageiscoming,andthedatacanbecollectedareincreasingexponentially,whichhavereachedTBorPBlevel.Thetraditionaldataminingtechnologyhasbeendifficulttodealwithsuchlarge—scaleda

7、ta.Therefore.howtodigoutthevaluableandusefulinformation疗omthelarge·scaledatamorerapidlyandefficientlyhasbecomeannewchallenge.Cloudcomputingisacomputationmodelforbusiness,whichcanstoreandhandlelarge—scaledatabyclusters.Theclustercanbesetupbyalargenumberofinexpensivec

8、omputers,whichgreatlyreducingthecosts.Asthepower如lstorageandcomputingcapabilitiesandtheadvantageoflow·cost,dataminingtechnologiesforlarge-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。