欢迎来到天天文库
浏览记录
ID:39402318
大小:2.52 MB
页数:125页
时间:2019-07-02
《基于密度的数据流聚类方法研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、分类号:UDC:密级:编号:工学博士学位论文基于密度的数据流聚类方法研究博士研究生:高兵指导教师:张健沛教授学科、专业:计算机应用技术哈尔滨工程大学2014年06月 分类号:UDC:密级:编号:工学博士学位论文基于密度的数据流聚类方法研究博士研究生:高兵指导教师:张健沛教授学位级别:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院论文提交日期:2014年3月论文答辩日期:2014年6月学位授予单位:哈尔滨工程大学 ClassifiedIndex:U.D.C:ADissertationfortheDegreeof
2、D.EngResearchofDataStreamClusteringMethodsBasedonDensityCandidate:GaoBingSupervisor:Prof.ZhangJianPeiAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerAppliedTechnologyDateofSubmission:March.2014DateofOralExamination:June.2014University:HarbinEngineeringUn
3、iversity 哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):日期:年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学
4、。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(□在授予学位后即可□在授予学位12个月后□解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字):日期:导师(签字):年月日年月日 基于密度的数据流聚类方法研究摘要近年来,随着信息
5、技术的飞速发展和广泛应用,数据流作为一种普遍存在的数据形式,吸引了越来越多数据挖掘研究者的关注。与存储于可多次随机访问介质中的静态数据不同,数据流具有连续性、实时性、次序性等特征,使传统的聚类分析技术不适用于数据流环境。学术界已经对数据流上的聚类分析问题进行了不少研究工作,开发出很多快速有效地针对数据流的聚类算法,给人们提供了有价值的信息帮助决策。由于数据流本身的复杂性和多样性,现有算法仍然有待于进一步提高以适应新的条件和要求,在诸如提高聚类结果的精度,发现不同密度的聚簇和离群点,在分布式数据流和不确定数据流中发现不同形状的聚簇等
6、方面仍然有很多迫切需要解决的问题等待进一步研究。本文针对数据流分析中的聚类分析任务,利用基于密度的聚类技术,从以下四个方面进行了更加细致有效的研究:首先,针对不确定数据流聚类算法大多应用基于距离划分的聚类思想,难于发现不确定数据流中的非球状簇,而现有的基于密度的不确定数据流聚类算法不能解决属性级不确定性聚类问题。提出衡量网格不确定性的期望距离标准,通过分析属性级不确定性对聚类问题的影响定义网格概率密度,使网格密度能够兼顾网格中数据量与不确定性双重因素;同时,定义了新的密度阈值标准和网格衰减标准,并据此分类网格及设计聚类算法,保证了
7、及时捕捉到簇的变化;在此基础上,结合衰减窗口技术,提出一种基于网格密度的不确定数据流聚类算法(DBUSC),查找密度大于动态密度阈值的相邻网格单元得到最终聚类结果;最后,通过实验表明:与传统的基于距离划分方法相比,DBUSC算法具有能够发现非球形状聚簇和无需指定簇数的优点,在聚类不确定数据流时不仅所产生的时间代价更小,而且能够取得更好的聚类质量。其次,针对基于微聚类的数据流聚类方法中的微聚类结构不保留数据流自身信息,影响了聚类准确度,同时采用的两阶段聚类的思想降低了算法效率问题。提出用代表点结构作为数据流的概要结构,用以保存数据流
8、的密度信息,在代表点的基础上定义环点,设计迭代算法通过查找环点得到密度相连的代表点形成簇;另外,定义了代表点时态权重,提出一种基于代表点性质的数据流聚类算法(RB-Stream),采用测试-更新策略及时发现低于权重阈值的代表点,和权重不断增加的新的
此文档下载收益归作者所有