欢迎来到天天文库
浏览记录
ID:34639268
大小:4.61 MB
页数:122页
时间:2019-03-08
《海量数据挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、浙江大学博士学位论文海量数据挖掘技术研究姓名:刘君强申请学位级别:博士专业:计算机应用技术指导教师:潘云鹤20030201渐潋大学博士学位论文摘要随着信息技术特别是网络技术飞速发展,人们收集、存贮、传输数据能力不藜撬蹇。数据氆瑷了爆炸瞧增长,与戴形成鳝秘对琵豹怒,对决策寿份俊豹麴谈却非常匮乏。知识发现与数据挖掘技术正是在这~背景下诞生的一门新学科。数据挖掇要在实舔应耀中发撂终赐,衰蛙麓挖撼算法帮数撰挖掘软{譬乎台楚重要爨技术基础。本文以数据挖掘最基本问题,频繁模式与关联规则挖掘为切入点,研究麓封闯效率、
2、高空闻可传缝蛙憨挖握算法积分布、暴嫫、海爨数据熬协期挖撼软件模型。本文蓠先发现了基于撼表示形式款虚拟投影方法,瘸子按深度优先挖掘蜜簇型数据集:提出了稀疏型数据集袭示形式及非过滤投影方法:谶~步提出了基于伺机投影的思想,设计并实现了基予饲枫投影的众瑟算法OpportuneProject,对拢实验表明浚算法挖掘各种舰模与特性数据库的效率与可伸缩性都是最健的。由于其内在的计算复杂性,挖掘密集型数据嬲频繁模式完全集非常阙难,髌决办法是挖掘频繁模式的闭合集或最大集。本文掇出了~种组织闭合横式集的复合型频繁模式树,
3、支持搜索空间的高效剪裁,有效地平衡了树生成与树剪裁的代侨,实现了闭合模式集挖擒算法CROP,其效率与可伸缩性大大优于CHARM等算法。在此基础上,本文提出了闭合性剪裁和一般性剪裁相结会,并熊适时前窥的鬣大模式挖掘算法MOP,大大优于MaxMiner和MAFIA等算法。本文进~步提如了根据信息熵自动生成与人机交互相结合来确定数值型与癸剐蘩蒋往概念层次的新方法,不仅支持逐朦挖掘两盈能避行跨爱挖掘,并实现了多支持率剪裁,将所提出的挖掘频繁模式完全集、闭合集的新算法推广到无冗余关联麓刚、多缍多蘑多数攥类鍪关联藏
4、刚、多支持率分类痰弼的挖掘闯趣。本文在所取得的数据挖掘算法研究成粱基础上,对数据挖掘软件模型作了深入磺究。蓠先提崮了数器携摇俸鼗箍述语言MDL帮挖掘任务模登蘑本语言,设计并实现了一个集成数据仓库管璎功能、挖掘引辇具有一定智能、体系结构可扩震懿数舞挖箍工其,并已经集残戮一个大鍪裔鼗涟锁金藏的经鬣决策系统中。本文在研究分稚式问题求解技术和分析移动裂智能代理技术的基础上,提出了铁鹅络海燕数援中发瑷鸯蔫氯谖翡傍溺挖握模蘩。酋巍定义了黑袄窝鲔谈涿的描述语言以及知识交换格式,设计和实现了支持互联网上分布式问题求解的
5、黑掇系统,攫凄了分枣式溺络海璧鼗豢挖覆系统DistributedMiner。接着在分析移魂式摘要管麓{弋理技术静基磷上,设计了一释移动式智麓代理服务器,逶避重擒基磷结构提出了移动式网络海量数据挖掘系统模型MobileMiner。关键溺:箱识发琨,数掇挖掘,荚鞍蔑剃,分类鬣爨,多缭多矮多数据类壅关联藐列,撅蘩搂式,闭台频繁模式,最大频繁模式,黑板系统,分布式问题求解,智能代理,移动型智能代理,协嗣数摇缆握,分带式数摆挖掘,穆动式数撵挖掘,絮缝墅数爨挖据工舆,篝法,软件,海量数据库望!!!!!!!!!!!!
6、!竺!!!!!!!!!堑!塑g!!!:!竖!堡!!!!!g!!!!!!!g!!!!!!型旦!g!!!一一一ABSTRACTWiththedevelopmentofinformationtechnology,especiallytheemergingofthenetworktechnology,ourabilitiestocollect,storeandtransferdatahavebeenimproveddramatically.Comparingtotheexplosivegrowthofdata,
7、ourneedsfurdecisionrelevantknowledgearenotsatisfiedyet.Knowledgediscoveryanddataminingtechnologyisanimportantapproachtoaddressthisproblem.Tobeusefulfurrealworldapplications,highperformanceminingalgorithmsandsoftwareplatformsareindesperatelyneed.Thispaper
8、focusesontheresearchintoefficientandscalableminingalgorithmsandsoftwareplatformsthatsupporttheknowledgediscoveryindistributed,heterogeneous,andverylargedatabases.Thispaperpresentanovelalgorithm,calledOpportuneProjectwhichi
此文档下载收益归作者所有