欢迎来到天天文库
浏览记录
ID:32968126
大小:4.17 MB
页数:126页
时间:2019-02-18
《基于网格的数据流聚类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:——UDC:工学博士学位论文密级:编号:——基于网格的数据流聚类方法研究博士研究生:于翔指导教师:印桂生教授学位级别:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院论文提交日期:2010年4月。论文答辩日期:2010年6月学位授予单位:哈尔滨工程大学▲一●:;,~.~-一jClassifiedIndex:U.D.C:ADissertationfortheDegreeofD.EngResearchofDataStreamClusteringMethodsBasedonGridCandidate:YuXiangSupervisor:Prof.YinGuishengAcad
2、emicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerAppliedTechnologyDateofSubmission:April,2010Dateof0ralExamination:June,2010University:HarbinEngineeringUniversity▲,。^^-,-■,▲哈尔滨工程大学学位论文原创性声蹰本人郑重声明:本论文的所有工作,是在导师的指导下,自作者本人独立完成的。有关观点、方法、数据和文献IFI-Il用己在文中指出,并与参考文献相对应。除文中己注明引用的内容外,本论文不包含任何其他个人或集体己
3、经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标黾弓。本人完全惹识到本声明的法律结果由本人承担。作者(签字):一一寸荔防日期:钞产年舌月,3曰学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属亍哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉
4、密学位论文待解密后适用本声明。本论文泛在授予学位后即可口在授予学位12个月后口解密后)自哈尔滨工程大学送交有关部门进行保存、作者(签享):匀射导师(签享)邑期:矽少年多月哆吕≯扣年乡胃孑,^℃0基于网格的数据流聚类方法研究摘要近年来,数据采集技术以及数据挖掘技术不断发展,通常在短时间内就可以采集到大量的数据,并加以分析处理。随着信息技术以及Web技术的飞速发展,数据不再是存储于可多次随机访问的介质中的静态数据,而是称之为数据流的动态流式数据。不同于静态数据,数据流具有实时性、连续性、顺序性等特性,因而传统的聚类分析技术无法直接应用于数据流,需要新的聚类分析技术来处理数据流。本文针对数据流聚类技
5、术从多个方面进行了深入细致地研究。首先,分析了基于网格的聚类算法的优缺点,进而对传统的静态网格划分方法以及动态网格划分方法进行了研究,针对网格聚类算法中数据空间的划分方法进行改进,拟对新的数据空间动态划分策略展开研究,使其可增量地更新网格单元的结构以及统计信息。在此基础上,设计出基于动态网格划分的聚类算法,使得新算法不仅具有传统网格聚类算法的高效性,且在一定程度上提高聚类的质量。其次,在新的数据空间动态划分策略的基础上,着重针对数据流的增量聚类进行研究。对现有的数据流聚类算法和增量聚类算法的特性以及存在的问题进行分析,针对数据流对聚类算法的实时性等方面的要求以及现有聚类算法对非球形聚类效果不好
6、的缺点,设计一种基于数据流的不规则网格增量聚类算法。使得与其它算法相比,新算法具备传统网格聚类算法处理速度快的优点,同时不断动态增量地调整网格整体结构。并充分利用网格聚类算法的特点,通过判断网格是否相连,保证对于不同形状聚类的聚类效果。在网格聚类时,无需预先指定聚类数目,且对孤立点有较好的鲁棒性。通常包含孤立点的网格单元不会满足稠密度阈值的要求,可以通过剪枝策略进行去除以减少算法复杂性。由于动态划分的网格单元反映了当前数据流的分布特点,新算法应在一定程度上提高聚类的精度。再次,在分析高维数据聚类方法和维度约简方法以及这两种方法在数据哈尔滨T稃大学博十学位论文流环境中应用的基础上,针对高维空间数
7、据稀疏性、数据属性重要度倾斜等问题,对粗糙集理论进行研究,拟设计一种基于粗糙集属性约简的数据流增量聚类算法。新算法应针对聚类的无监督特性通过改进后的无决策属性的属性约简方法计算数据点各属性的重要度,并调整属性集。在属性集中增加具有较高重要度属性的同时,淘汰属性集中不再重要的属性。同时,新的约简算法在保证聚类精度的前提下,可动态调整参与聚类的属性集合,提高算法的效率。最后,对现有的数据流子空间聚类算
此文档下载收益归作者所有