面向不确定数据流的聚类和模式挖掘技术研究

面向不确定数据流的聚类和模式挖掘技术研究

ID:33938705

大小:7.20 MB

页数:160页

时间:2019-03-01

面向不确定数据流的聚类和模式挖掘技术研究_第1页
面向不确定数据流的聚类和模式挖掘技术研究_第2页
面向不确定数据流的聚类和模式挖掘技术研究_第3页
面向不确定数据流的聚类和模式挖掘技术研究_第4页
面向不确定数据流的聚类和模式挖掘技术研究_第5页
资源描述:

《面向不确定数据流的聚类和模式挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码10701学号0722210225分类TN82号TP391密级公开西安电子科技大学博士学位论文面向不确定数据流的聚类和模式挖掘技术研究作者姓名:陈静玉一级学科:计算机科学与技术二级学科:计算机应用技术学位类别:工学博士指导教师姓名、职称:陈平教授提交日期:2014年9月ResearchonClusteringandPatternMiningTechniquesforUncertainDataStreamsAdissertationsubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsfor

2、thedegreeofDoctorofPhilosophyByChenjingyu(ComputerScienceandTechnology)Supervisor:Prof.ChenpingSeptember2014摘要摘要在网络流量管理、金融数据分析、网站日志管理、视频流版权保护等数据流应用中,由于设备精度、噪音、干扰和隐私保护等问题,数据流中往往包含着大量不确定性数据,而这些不确定性对数据流的管理和挖掘带来了挑战。通过分析数据流的不确定性,可以降低不确定性对挖掘结果的影响,进而提升数据流挖掘的质量。在针对不确定数据流的挖掘中,分析数据的不确定性特征对控制挖掘质量尤为

3、重要。在交通监控、金融数据分析、网站监控等包含大量对象的应用中,数据对象的不确定性,对计算对象间的相似度和对象聚类的质量产生了很大的影响。而在对环境监控、气象监测等数据流的在线聚类过程中,需要考虑数据元组的不确定性对微簇质量的影响。在针对不确定数据流的频繁模式挖掘中,需要根据不确定项集的概率频繁程度和概率分布,反映不确定频繁项集的频次分布情况。在针对不确定数据的序列模式挖掘中,需要基于概率模型度量序列模式的概率频繁程度,这就需要对现有的序列模式挖掘方法进行扩展,并提高概率序列模式的挖掘效率。本论文旨在通过对不确定数据概率特征进行分析,以提高针对不确定数据流的聚类和模式挖

4、掘的质量。论文围绕着基础科研业务费项目“基于概要模型的海量复杂时序数据分析方法研究”、自然基金项目“多核系统下调控模式识别的MapReduce模型及算法研究”和基础科研业务费项目“基于Sketch的不确定流数据管理关键技术研究”等课题,研究不确定数据流的挖掘。本文的研究内容主要针对不确定对象聚类、不确定数据流聚类、概率频繁模式挖掘和概率频繁序列模式挖掘四个方面,概括为以下四个部分:第一部分研究基于概要结构的不确定对象聚类方法。针对现有的不确定聚类方法未考虑不确定对象的概率分布的问题,分别在离散域和连续域上对不确定对象的概率分布进行建模。为了使概率分布的提取更适合数据流环

5、境,通过构建概要数据模型以降低海量对象数据的规模。针对概要数据,采用Kullback-Leibler散度计算不确定对象的相似度,并使用改进的快速高斯变换提高了计算相似度的效率。在此基础上,本文采用改进的KL-散度作为相似性度量,对现有的基于划分的聚类算法分别进行了扩展,提出了基于概率分布相似性的KM-KL聚类算法。最后通过仿真实验验证了该算法对聚类的质量和效率的提升。第二部分研究基于质量度量的不确定数据流聚类方法。针对现有不确定数据流在线聚类方法,基于概率分布给出了微簇的质量度量模型,并基于质量度量构I西安电子科技大学博士学位论文建了描述微簇不确定性质量的直方图模型。在

6、此基础上,提出了一种基于质量度量和时间划分的在线微簇维护策略,通过将缓冲区按照质量和时间区间进行划分,根据微簇的质量特征调整缓冲区,以达到对微簇的质量和成长时间进行细粒度控制的目的。并基于微簇维护策略,提出了一种基于质量度量的不确定数据流聚类算法。同时,针对高维不确定数据流,基于质量度量和投影映射方法,将高维全空间投影到微簇相关的子空间中。在此基础上,给出了在微簇相关子空间中的相似度计算公式,提出了一种基于子空间的高维空间中不确定数据流的聚类算法。最后通过分别与现有算法进行实验比较,说明了低维和高维聚类算法的准确性和高效性。第三部分研究基于Sketch的不确定数据流频繁

7、模式挖掘方法。基于可能世界模型描述频繁模式的概率特征,通过将后缀支持度与Sketch相结合以优化概率频繁模式的挖掘方法。将概率频繁模式挖掘分为两个部分:面向支持度的频繁模式挖掘和频繁项的概率分布统计。基于后缀支持度,优化了频繁模式树的构建,提出了一种基于后缀支持度的频繁模式挖掘算法。同时,基于Sketch和滑动窗口,统计项集的概率分布信息,并提出了一种面向不确定数据流的概率频繁模式的挖掘策略。同时,基于概率分布信息,设计了频繁模式的预测模型,提出了基于预测模型的剪枝算法。最后通过实验表明基于后缀支持度和预测剪枝的挖掘算法,能提高不确定数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。