hadoop环境下分类算法研究——贝叶斯分类

hadoop环境下分类算法研究——贝叶斯分类

ID:35173014

大小:2.26 MB

页数:47页

时间:2019-03-20

hadoop环境下分类算法研究——贝叶斯分类_第1页
hadoop环境下分类算法研究——贝叶斯分类_第2页
hadoop环境下分类算法研究——贝叶斯分类_第3页
hadoop环境下分类算法研究——贝叶斯分类_第4页
hadoop环境下分类算法研究——贝叶斯分类_第5页
资源描述:

《hadoop环境下分类算法研究——贝叶斯分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、■V分类号密级?IUDC-单信代码10154■■;;.J?U-t、‘-^il宁工业大学硕:t学位论文HADOOP环境下分类算法研究—贝叶斯分类V.、‘专业:计算机科学与技术研究生:董庆辉指导教师:周军教授J ̄'二0—六年H月一,_独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加标注和致谢的地方外,论文中,不包含其他人己经发表或撰写过的研究

2、成果,也不包含为获得迂宁工业大学或其他教一育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所作的任何贡献均己在论文中作了明确的说明并表示了谢意。研究生签名:辦兴/如女月4日关于论文使用授权的说明本人完全了解迂宁工业大学有关保留、使用学位论文的规定,即:学校有权保留送交的复印权,允许论文被查阅和借阅;学校可yA公布论文的全部或部1分内容,可^采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)研究生签名:导师签名:年A月>/日辽宁工业大学硕士学位论文HA

3、DOOP环境下分类算法研究——贝叶斯分类专业:计算机科学与技术研究生:董庆辉指导教师:周军教授辽宁工业大学电子与信息工程学院二〇一六年三月MasterThesisResearchonClassificationAlgorithmUsedHADOOP—BayesClassificationSpeciality:ComputerScienceandTechnologyCandidate:DONGQing-huiSupervisor:ProfessorZHOUJunLiaoningUniversityofTechnologyJinzhou,

4、121001,ChinaMarch2016摘要辽宁工业大学硕士学位论文摘要分类方法研究是数据挖掘领域重要研究方向之一。贝叶斯分类方法是建立在经典概率统计理论之上的一种分类方法。由于贝叶斯分类方法在面对海量数据时有明显的运算速度慢、数据处理效率低、分类结果稳定性差等局限性。云计算是一种基于互联网的并行的计算方式,对处理数据量大、数据类型多、数据结构复杂、数据增量快的数据集具有明显的优势。HADOOP环境是由Apache公司开发的一个云计算平台,HADOOP为企业提供了成本低廉的并行数据处理方案。因此实现贝叶斯分类方法并行化,解决传统贝叶

5、斯分类方法在大数据环境下保持应有的准确性和稳定性有着理论意义和实际应用背景。贝叶斯分类是以统计学为基础的数据分类方法。朴素贝叶斯分类方法是贝叶斯分类中最基本、最常用的分类方法,方法要求数据属性值之间相互独立,而实际数据中属性值之间一般不独立或其独立性难以判断,进而影响了朴素贝叶斯分类方法的适用范围和2分类效果。针对朴素贝叶斯分类方法存在的问题,应用统计量分布的方法给出一种分布加权的贝叶斯分类改进方法,卡方独立性假设对朴素贝叶斯方法独立性假设难以广泛适用做出来有效改进。在经典数据集上对分类结果准确性进行了对比分析。实验结果验证了所给方

6、法的有效改进。传统邮件过滤系统对海量邮件数据过滤效率低、速度慢、计算耗费资源大等缺点。并根据朴素贝叶斯分类方法高度并行、自组织、计算量大的特点,提出在Hadoop集群下基于云计算的并行贝叶斯分类算法。将传统贝叶斯分类算法进行并行化,利用Hadoop平台下MapReduce框架实现分类算法并行计算的优势,改进传统贝叶斯分类模型,提高邮件过滤速度和效率。关键词:分类算法;朴素贝叶斯算法;HADOOP;云计算;MapReduceIAbstract辽宁工业大学硕士学位论文AbstractClassificationresearchisoneo

7、ftheimportantresearchdirectioninthefieldofdatamining.Bayesianclassificationmethodisbasedontheclassicaltheoryofprobabilityandstatisticsofaclassificationmethod.Becausethebayesianclassificationmethodinthefaceofhugeamountsofdataaresubstantiallyspeedisslow,dataprocessing,suc

8、haslowefficiencyandpoorstabilityofclassificationresultslimitations.Cloudcomputingisakindofparallelcalculationb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。