大数据环境下的关联规则提取算法研究

大数据环境下的关联规则提取算法研究

ID:35073000

大小:3.63 MB

页数:59页

时间:2019-03-17

大数据环境下的关联规则提取算法研究_第1页
大数据环境下的关联规则提取算法研究_第2页
大数据环境下的关联规则提取算法研究_第3页
大数据环境下的关联规则提取算法研究_第4页
大数据环境下的关联规则提取算法研究_第5页
资源描述:

《大数据环境下的关联规则提取算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、、mm■v^H^:级-分类号密__.,“''-八.君.imc单位代码10154"-.4.'>.\'式--■■■IfU..1':‘.*?-r,.,i、《亡*,^'',一'.'人..、..‘::.乎、苗.'、家乂'.线..辽宁工业大学,.接:巧^":硕±学位论文鮮;-.'rr或■:*.V:??,-’—.?...',、’-'壬,;.'';\大数据环境下的关联规则提取算法硏究‘—,占■..'-,■-',

2、/?■.;’.P..‘Vr’,一,气1.I‘‘."..心'葉.泉A.私八.,..一-、’i.V'年'V>s'--1.^、''-人-少八.^-,,^户专业<:计算机科学与技术一—’‘-户.夏研究生:王大伟祭’一J'-*''....^;.一.:>、,c指导教师:周军教授辛,=‘.VV;令乃说,?’‘—A’-r二0...、J六年H月;'L’一.,:花yJ.—.,户、一-!‘'、r.独创在性声明本人声明所呈交

3、的论文是特我个人导师指导下进行的研究工作及取得的研究成果。经尽我所知,除了文中别加标注和致谢的地方外,论文中,不包含其他人S发表或撰写过的研究成果,也不包含为获得足宁工业大学或其他教。与我---同工作的同志对本研究所作的任育机构的学位或证书而使用过的材料何贡献均Li在论文中作了明确的说明并研表究示生了签谢意。名:年关于论文使占名月八曰用授权的说明权本人完全了解迂宁工业大学有关保留、使用学位论文的规定,即:学校有分保留送交的复印权,允许论文被查阅和借阅;学校可W公布论文的全部或部内容,可采用影印、缩印或其他复制手段保存论文。(保密的论

4、文在解密后应遵守此规研定)究生签名;导师签名:年韦月Vf日分类号密级UDC单位代码10154辽宁工业大学硕士学位论文大数据环境下的关联规则提取算法研究专业:计算机科学与技术研究生:王大伟指导教师:周军教授二〇一六年三月MasterThesisASurveyofMiningAssociationRulesAlgorithminBigDataSpeciality:ComputerScienceandTechnologyCandidate:WANGDa-weiSupervisor:ProfessorZHOUJunLiaoningUniversityofTechnol

5、ogyJinzhou,121001,ChinaMarch2016摘要辽宁工业大学硕士学位论文摘要随着互联网、信息技术以及云计算的高速发展,当今社会已进入了海量数据的时代,进一步将大数据推生为IT产业又一次颠覆性的技术变革。不管是移动通信、电商金融还是物联网等各个领域,每天都会产生巨量的各种不同类型的数据。如何从这些庞大的、结构各异的、而又掺杂着大量噪声的数据中提取出隐含在其中的具有一定意义的知识或规则,正是关联规则提取的研究内容。在大数据环境下,选取什么样的平台工具或算法可以对数据进行快速的挖掘分析,看清数据的本质,找到其中的商机,是人们亟待解决的一个问题。针对蕴含关联规则提

6、取问题,给出了一种新的关联规则生成形式——蕴含关联规则,提出了蕴含关联规则的提取方法。针对如何提取有效关联规则的问题,应用了蕴含强度作为规则提取的度量,提取出真正具有蕴含关系的规则,并且能够分析规则中所涉及的规则前件与规则后件相关性的正负。引入启发性信息,使得关联规则的提取更具有针对性,避免了大部分用户不感兴趣的、冗余的规则。实验结论证明该关联规则形式及算法的有效性及效率。在大数据环境下,针对FP-Growth算法无法将整棵FP-tree一次性加载到内存,很大程度上影响了FP-Growth算法效率的问题,提出了OPFP-Growth算法,在Hadoop平台应用MapReduc

7、e将传统的FP-Growth算法进行并行化。针对MapReduce并行算法的负载初始化不均衡及频繁项集约简的问题,引入了权重轮循负载均衡及频繁闭项集的方法。使得各个数据节点的数据分配及处理能力更趋于均衡,并减少了FP-tree在迭代的数据挖掘过程中输出冗余的中间结果。同时应用Hive对数据的存储结构进行相应的调整,提高了HDFS的空间利用率,实验验证了算法的有效性及效率。实验采用NCDC的气象数据,应用并行的OPFP-Growth算法到气象数据关联因素分析中,可以分析出气象信息中相关因素的关联性,为天气

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。