并行数据挖掘理论研究与应用

并行数据挖掘理论研究与应用

ID:26944816

大小:3.66 MB

页数:124页

时间:2018-11-30

并行数据挖掘理论研究与应用_第1页
并行数据挖掘理论研究与应用_第2页
并行数据挖掘理论研究与应用_第3页
并行数据挖掘理论研究与应用_第4页
并行数据挖掘理论研究与应用_第5页
资源描述:

《并行数据挖掘理论研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆大学博士学位论文并行数据挖掘理论研究与应用姓名:王华秋申请学位级别:博士专业:控制理论与控制工程指导教师:曹长修20060501中文摘要摘要通过数据挖掘进行知识发现是对大型数据库或数据仓库的一种分析用于发 现隐藏在数据仓库中的关系和知识这些知识会影响管理者的决策和实施数据 仓库上的数据挖掘能够从利用机群并行计算中获利从而提高其性能和数据分析 质量实际上挖掘大量数据集会消耗巨大的计算资源因为在传统的计算机上 对海量数据集进行数据挖掘得到结果是要花费非常多的时间的一种减少响应时 间的方法就是采样但是在一些情况下减少训练数据会导致计算模型不准确

2、甚至不可用另外一种方法就是并行计算了高性能计算机和并行数据挖掘结合在一起就能为挖掘巨型数据集提供一个 最佳方案更快的处理速度意味着用户能够试验更多的模型以更好地理解复杂数 据高性能计算让用户能够分析更多的数据变成现实这样并行数据挖掘为数据 分析和知识提取发挥了越来越重要的作用在诸如商业和工业领域的数据提取和 决策支持中得到应用虽然目前已提出过一些并行数据挖掘算法但是存在着通信量过大可扩展 性差数据分布不合理等问题出现算法性能随数据量递增效率下降的情况具 有理论或应用局限性因此本文研究和提出具有新颖的适应性强的高效并行挖掘 算法并将其用于商业和工

3、业领域具有其创新性和必要性本文在研究并行数据挖掘算法前搭建了并行计算环境设计了大型商业数 据仓库和使用了工业生产数据库作为研究和应用平台在构建的数据仓库上利用PC机群进行并行数据挖掘本文分析了能用于数据挖掘技术的几种不同并行形式阐述了如何用机群执行并行数据挖掘提出了几种可用于数据挖掘算法的并行化方法这些算法有(1)并行关联规则本文在比较了当前几种并行关联规则挖掘算法的基础上为了解决这些算法在候选集和执行时间方面存在的问题结合关联规则的性质定理提出了一种快速并行关联规则算法FPARM改进了全局和局部剪枝策略以及候选集的约简方法在无共享的工作站机群

4、上进行性能测试采用改进并行算法的执行效率提高了达到了算法优化的目的并将该算法用于商品之间的购物序 列模式分析在实际的关联规则挖掘应用中多层概念关联规则是用户经常考虑的问题本文在分析了单数据库多层关联规则算法SMAM算法的基础上为了提 高算法的效率提出了两种并行多层关联规则算法PMAM-L和PMAM-LG试验 证明PMAM算法是有效的(2)并行聚类本文提出了基于并行退火粒子群优化的并行聚类算法采用了I重庆大学博士学位论文任务分布方案和部分异步并行通信降低了计算时间这种模拟退火并行粒子群算法结合了并行粒子群算法的快速寻优能力和模拟退火的概率突跳特性

5、保持了群体多样性从而了避免种群退化实验证明该算法在并行机群上具有了较好的准确性加速性和可扩展性最后将该算法应用于客户购物时段分析中进行商业决策支持(3)并行神经网络建立在密度估计基础上的核回归径向基神经网络经常用于模型预测但是高维的核函数矩阵运算需要花费巨大计算资源为了缩短计算时间本文设计了以异步方式执行的并行算法用于计算核回归径向基网络核函数矩阵并提出自适应距离优化核函数的窗宽参数本文将该算法用于钢铁冶炼中的转炉提钒过程中建立了预测模型在工作站机群上执行该算法利用实际数据验证了该算法的加速性和准确性本文进行了上述并行数据挖掘算法性能的详细研究

6、和讨论主要目的是研究在机群并行结构下的数据挖掘算法及其通过对比关于通信比可伸缩性和加速性的实验效果从理论和实验两方面证明这些并行挖掘算法的高效性关键词工作站机群并行数据挖掘商业数据仓库并行关联规则并行聚类并行神经网络II英文摘要ABSTRACTKnowledgediscoveryindatabasesordataminingistheartificialanalysisoflargevolumesofdata,lookingfortherelationshipsandknowledgethatareimplicitindatawarehousi

7、ngandlargevolumesofdataandare'interesting'inthesenseofimpactinganorganization'sdecisionandpractice.Dataminingandknowledgediscoveryonlargeamountsofdatacanbenefitoftheuseofparallelcomputationofclusterbothtoimproveperformanceandqualityofdataanalysis.Infact,mininglargedatasetsre

8、quirelargecomputationalresourcesbecausedataminingalgorithmsworkingonverylar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。