分布式环境下数据挖掘分类算法研究

分布式环境下数据挖掘分类算法研究

ID:32981150

大小:2.15 MB

页数:73页

时间:2019-02-18

分布式环境下数据挖掘分类算法研究_第1页
分布式环境下数据挖掘分类算法研究_第2页
分布式环境下数据挖掘分类算法研究_第3页
分布式环境下数据挖掘分类算法研究_第4页
分布式环境下数据挖掘分类算法研究_第5页
资源描述:

《分布式环境下数据挖掘分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号⋯⋯⋯⋯UDC⋯⋯⋯⋯⋯⋯一中南大学Y992718pCENTRALSOUTHUNIVERSITY硕士学位论文密级⋯.编号⋯论文题目⋯分查式环境正数据燕掘分类算迭噩究学科、专业⋯⋯⋯逼信与信息系统⋯⋯⋯⋯⋯⋯⋯研究生姓名⋯⋯⋯⋯⋯塞⋯一宝⋯⋯⋯⋯⋯⋯⋯⋯⋯导师姓名及专业技术职务⋯⋯⋯⋯奎宏剧擞援⋯⋯⋯⋯⋯⋯⋯⋯摘要分类规则的挖掘是数据挖掘研究领域的一个重要问题,而传统的数据挖掘算法和模式主要采用集中式,这不仅要求有高速的数据通信网络,还会导致响应时间延长以及使数据的私有性和安全性遭受破坏,不适合分布式环境下的数据模式挖掘。因此本文主要从

2、分布式的角度出发,针对分类知识的理论和方法进行了深入研究,提出了有效的挖掘算法。本文首先提出了一种采用纵向划分数据集和同步更新哈希表技术来建立异构分布式环境下分类决策树的算法DSPRINT,以及采用区间分割和区间筛选技术的DSPRINT改进算法。DSPRINT算法采用属性直方图的数据结构,将类别列表合并到每个属性列表当中,减少了需要驻留于内存的数据量。DSPRINT算法还采用纵向划分数据集和同步更新哈希表的策略,根据最小gini值选出可以用来更新的哈希表项,对其相应条目进行修改,利用哈希表来记录并控制各分站点的节点分裂情况,具有较高的准确率

3、。针对DSPRINT算法处理连续值属性效率较低的缺点,还将DSPRINT算法进行了改进,采用区间评估和区间筛选的思想,通过取样将连续值属性的值域划分成多个区间,估计在各个区间上有无找到最佳分割点的可能,最后在可能找到最佳分割点的区间中逐一搜索,有效地提高了算法的工作效率。对比实验表明,当选取合适的区间数时改进算法和DSPRINT算法在分类准确率上相同;另外,当分站点数目逐渐增多时,两种算法均可以获得较高、稳定的准确率,且改进算法在处理连续值属性时的计算效率要比DSPRINT算法更高。另外,针对分布式环境中满足单调性约束条件的分类闯题,本文将

4、R.Potharst提出的建立单调性决策树的思想在分布式环境中进行拓展,对DSPRINT算法进行补充,增加了修改规则Update,将生成的非单调性决策树修正为单调性。使无需随时增加各个分站点数据集数目,仅插入少量数据项,通过分裂一些叶节点,增加少量分枝即可实现决策树单调化。本文进一步针对常规分布式数据挖掘系统存在的数据分块、结果集成、安全性等问题,提出将移动代理技术和数据挖掘技术相结合,利用MobileAgent的可移动性、分布并行性、异步性、资源优化等特点,搭建适合大容量、分布式数据分析应用的数据挖掘系统平台,运用移动代理技术完成分布式数

5、据挖掘中适配器、数据挖掘代理、数据库和用户问通信、程序调用和代码迁移。关键词数据挖掘,分类规则,决策树,单调性约束,移动代理ⅡAsanimportantresearchareaindatamining,traditionalalgorithmsandmodelsofclassificationworkbyregularlyuploadingmissioncriticaldatainthewarehouseforsubsequentcentralizeddatamining∞plication.niscentralizedapproachis

6、fundamentallyinappropriateformostofthedistributedandubiquitousdataminingapplications.nelongresponsetime,lackofproperuseofdistributedresources,andthefundamentalcharacteristicsofcentralizeddataminingalogrighmsdonotworkwellindistributedenvironments.Startingbydistributedpoints

7、ofview,thepaperpresentsthoroughexplorationandanalysisonclassificationknowledge,andadvancessuperiordistributedalgorithms..Firstly,thepaperproposesDSPRINTalgorithmthatadoptstheveaicaly--partitioning··datasetsandsynchronously--updating·-hash-·tabletechniquetobuilddecisiontree

8、sinheterogeneousdistributedenvironment,anditsimprovedalgorithmthatadoptsideasofsectionest

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。