基于元组聚类特征的不确定性数据流聚类算法研究

基于元组聚类特征的不确定性数据流聚类算法研究

ID:33763194

大小:466.45 KB

页数:67页

时间:2019-02-28

基于元组聚类特征的不确定性数据流聚类算法研究_第1页
基于元组聚类特征的不确定性数据流聚类算法研究_第2页
基于元组聚类特征的不确定性数据流聚类算法研究_第3页
基于元组聚类特征的不确定性数据流聚类算法研究_第4页
基于元组聚类特征的不确定性数据流聚类算法研究_第5页
资源描述:

《基于元组聚类特征的不确定性数据流聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学硕士学位论文基于元组聚类特征的不确定性数据流聚类算法研究梁达鹏燕山大学2010年12月万方数据国内图书分类号:TP311.132.1国际图书分类号:621.3工学硕士学位论文基于元组聚类特征的不确定性数据流聚类算法研究硕士研究生:梁达鹏导师:黄国言教授申请学位级别:工学硕士学科、专业:计算机应用技术所在单位:信息科学与工程学院授予学位单位:燕山大学万方数据ClassifiedIndex:TP311.132.1U.D.C.:621.3DissertationfortheMasterDegreeinEngineering

2、RESEARCHONUNCERTAINDATASTREAMSCLUSTERINGALGORITHMBASEDONTUPLECLUSTERFEATURECandidate:LiangDapengSupervisor:Prof.HuangGuoyanAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerApplicationTechnologyUniversity:YanshanUniversity万方数据燕山大学硕士学位论文原创性声明本人郑重声明:此处

3、所提交的硕士学位论文《基于元组聚类特征的不确定性数据流聚类算法研究》,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字日期:年月日燕山大学硕士学位论文使用授权书《基于元组聚类特征的不确定性数据流聚类算法研究》系本人在燕山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有,本人如需发表将署

4、名燕山大学为第一完成单位及相关人员。本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日万方数据摘要对国内外数据流聚类的研究情况分析可知,已有的数据流聚类算法存在如下问题:不能聚类具有不确定性的混合属性数据流;在聚类过程中不能对不确定

5、性数据流中近期的数据进行详细的分析;在聚类过程中不能得到任意形状的聚类。针对这些问题,本课题将研究重点放在基于元组聚类特征的不确定性数据流聚类算法的研究上,解决这些问题对研究基于位置服务的应用、电子商务等领域具有重要的意义。首先,为了能对具有不确定性的混合属性数据流进行聚类,提出了一种具有不确定性的混合属性数据流聚类算法HU-Clustering。该算法使用概率频度直方图来统计标称属性部分的信息,定义了混合属性不确定性聚类特征以便能描述混合属性不确定性数据流的分布特征。并采用基于两轮选择的聚类过程来提高聚类质量。其次,为

6、了能对近期的数据进行分析,提出了一种基于滑动窗口的不确定性数据流聚类算法SWCUStreams。该算法采用两阶段的聚类框架。在在线部分,定义了不确定性时间聚类特征来描述元组的不确定性信息,提出不确定性聚类特征指数直方图存储近期数据的分布特征。在离线部分,基于不确定性聚类特征指数直方图的统计信息,采用UK-means算法来生成最终的聚类结果。最后,为了得到任意形状的聚类结果,提出了一种基于网格概率密度的不确定性数据流聚类算法GD-CUStreams。该算法定义了不确定性网格聚类特征来统计不确定性信息并存储网格中的概要信息。

7、针对用户的聚类请求,依据网格概率密度阀值判断网格类型并输出满足要求的网格类型。关键词不确定性数据流;聚类;滑动窗口;混合属性;概率频度直方图;网格概率密度万方数据AbstractByanalyzingthealgorithmsforclusteringdatastreamsofforeignanddomestic,theexistingmethodshavethefollowingproblems.Theexistingalgorithmsforclusteringuncertaindatastreamscannotcl

8、ustertheheterogeneousdatastreamswithuncertainty.Besides,inuncertaindatastreams,therecentdatacannotbeanalyzedindetailintheclusteringprocess.Furthermore,mostalgo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。