基于大数据集的动态数据库关联挖掘研究.pdf

基于大数据集的动态数据库关联挖掘研究.pdf

ID:50436877

大小:7.76 MB

页数:52页

时间:2020-03-06

基于大数据集的动态数据库关联挖掘研究.pdf_第1页
基于大数据集的动态数据库关联挖掘研究.pdf_第2页
基于大数据集的动态数据库关联挖掘研究.pdf_第3页
基于大数据集的动态数据库关联挖掘研究.pdf_第4页
基于大数据集的动态数据库关联挖掘研究.pdf_第5页
资源描述:

《基于大数据集的动态数据库关联挖掘研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号o/Xt-密级UDC51S)THESIS、基于大数据集的动态数据库关联挖掘研究(中文题名)ResearchonAssociationMiningAlorithmswithDnamicgyDatabaseBasedonBigData(英文题名)朱文飞(作纖名)指导教痛齐建东副教授申请学位级别___J±、/学科.丨!名称计算机应用技术研究方向计算机网络技术及应用论文提交日期2015年4月论文答辩日期2015年6月学位授予日期答辩委员会主席:评阅人:硕士论文同

2、意发表的声明研究生院:本人及导师完全同意《中国优秀博硕士学位论文全文数据库“”出版章程》(以下简称章程)及我校与中国学术期刊(光盘版)电子杂志社签定的《CNKI共建共享中国优秀博硕士学位论文全文数据库(CDMD)和北京林业大学研究生院博硕士学位论文全文数“”据库(DMD)协议书》(以下简称协议书)的有关内容,愿意将本人的硕士学位论文委托研究生院向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》投稿。所在学科为、沿热术,论文::琴和丨题目为希望《中国优秀博硕士学位论文全文数据库》给予出版,并同意在《中国博硕士学位

3、论文评价数据库》和CNKI系列数据库中使用,同意按章程和协议书规定孕受相关权益。:作者签名:I导师签名cfipC年月?日永久联系地址(邮编):永久联系电话:注:《中国优秀博硕士学位论文全文数据库出版章程》可从httduatefudp://gra,bj.eu.cn中学位工作/学位论文栏目下浏览独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,论文,除了文中特别加以标注和致谢的地方外中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京林业大学或其它教育机构的学位或证书一而使用过

4、的材料。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:车;^飞巧日期:关于论文使用授权的说明本人完全了解北京林业大学有关保留、使用学位论文的规定:,即学校有权保留送交论文的复印件,允许论文被查阅和借阅,;学校可以公布论文的全部或部分内容可以采用影印、缩印或其他复制手段保存论文。_的论文在解密后雌守此规定)签名:导师签名:日羊_期:摘要摘要数据挖掘是通过数据计算发现潜在规律和特征信息的过程。海量数据下的数据挖掘算法不仅要考虑算法的正确性,还应保证计算的可行性、有效性。本文以动态数据库为主

5、要研究对象,研究实现海量数据规模下关联规则的并行挖掘,解决数据相关性挖掘过程中算法效率、公平性和增量更新挖掘等问题。关联规则挖掘是从数据中发现潜在特征的过程,用于描述数据间相互关联特性,“”经典例子有啤酒和尿布的故事。关联规则挖掘算法经历了Apriori类算法、数据-Grow采样挖掘类算法、FPth类算法、分布式算法等发展,算法的效率与适用性都取。得了较大的进步分布式算法以分布式存储、并行计算实现分而治之,算法效率与扩展性具有较大优势。然而,当前分布式关联规则挖掘算法尚未形成具备灵活调度、均衡分配的分布式方案。此外,,大数据背景下的数据集规模具

6、有持续增量更新的特点静态数据库下的关联规则挖掘算法在动态数据下性能表现差异较大,适用动态数据库一分布式关联规则挖掘方案仍待进步研究。rior-本文对关联规则挖掘算法展开调研,通过对比分析Api、FPGrowth、FUP、PFP等典型算法的核心思想、适用范围,围绕大数据下的分布式关联规则挖掘算法进行深入研究,提出了具备负载均衡特性的分布式计算与增量更新挖掘设计方案。设计了后缀模式转换的数据分割及均衡任务分组模型,使各计算节点本地拥有计算所依赖的数据,实现不同节点相互独立的并行挖掘方法,保证算法全局的负载均衡特性;提出了基于满FP树的增量更新机制,通过树

7、的合并操作来避免对原始数据集的再次扫描,实现对动态数据的规则提取。基于Hadoop的对比实验数据表明,具备均衡机制的分布式方案HBFP(HighBa-lancedFPGrowth)在大数据并行计算中节点任务分配均勾程度提高,节点间的任务执行时间标准差缩小,算法全局执行时间有效降低12%;增量更新方案IHBFPncrementauced-(IldatinHighFPGrowth)pgBalan利用满FP树的特征减少增量数据引发的再次递归挖掘,将计算任务局

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。