基于自动编码机的增量聚类算法研究及应用

基于自动编码机的增量聚类算法研究及应用

ID:32968349

大小:2.91 MB

页数:61页

时间:2019-02-18

基于自动编码机的增量聚类算法研究及应用_第1页
基于自动编码机的增量聚类算法研究及应用_第2页
基于自动编码机的增量聚类算法研究及应用_第3页
基于自动编码机的增量聚类算法研究及应用_第4页
基于自动编码机的增量聚类算法研究及应用_第5页
资源描述:

《基于自动编码机的增量聚类算法研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据硕士学位论文基于自动编码机的增量聚类算法研究及应用ResearchandApplicationofIncrementalClusteringAlgorithmBasedonAuto..Encoder学号:21317036完成日期:2Q!鱼生墨旦墨!旦大连理工大学DalianUniversityofTechnology万方数据大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他

2、个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:基王自边编婴狃数增量塞娄簋洼亟究区廑周作者签名:垃堕蛔日期:型6年—£月L日万方数据大连理工大学硕士学位论文摘要随着传感器与无线通信技术的发展,数据不断产生和快速积累,动态数据的实时处理与可用性分析受到广泛关注。如何对动态数据集进行增量聚类,并对缺失数据进行高效填充来提高数据质量,已成为学术界研究的

3、热点问题。然而,现有一些增量聚类算法缺少对样本特征的学习,不能很好的对高维数据进行聚类。而且,现有大多缺失数据填充算法没有充分考虑局部样本之间的相似性,不能保证填充的精度。针对这些问题,本文提出一种基于自动编码机的增量聚类算法,通过学习数据特征对数据进行聚类。基于该算法,本文采用局部数据填充思想,在每一类中对缺失数据值进行加权填充。具体研究工作如下:(1)基于自动编码机的增量聚类算法。利用自动编码机学习样本特征,得到数据集在新特征空间下的表示形式,对数据进行一遍式读取,在原有聚类结果的基础上,通过动态

4、更新聚类中心,对新增样本进行聚类。(2)基于增量聚类的缺失数据填充算法。在对数据集中缺失数据值进行特殊值填充后,利用提出的增量聚类算法学习数据特征并对不完整数据集进行快速聚类,最后利用与缺失数据记录在同一类中相近的前桃个数据属性值,对其进行加权混合距离填充。实验结果表明,本文提出的增量聚类算法能够通过学习样本特征及动态调整簇结构对动态数据集进行增量聚类。同时,本文提出的基于增量聚类的缺失数据填充算法能够对缺失数据值进行有效填充,具有良好的时间性能。并且,两个算法都适用于分布式架构,具有一定的可扩展性。

5、关键词:增量聚类;不完整数据;缺失填充;自动编码机万方数据基于自动编码机的增量聚类算法研究及应用ResearchandApplicationofIncrementalClusteringAlgorithmBasedonAuto.EncoderAbstractWiththedevelopmentofsensingtechnologiesandwirelesscommunications,dataarecontinUOUSgeneratedandaccumulatedrapidly.Thereal.tim

6、eprocessingofdynamicdataandanalysisofavailabilityhavecapturedwidespreadattention.Howtoincrementalclusteringondynamicdatasetsandimputetheincompletedataefficientlytoimprovetheavailabilityofdatasetshavebecomeahottopicofacademicresearch.However,mostoftheexi

7、stingincrementalclusteringalgorithmsdonotlearnthemainfeaturesof也edatasets,cannotachievegoodperformanceondatasetsofhigh.dimensional.Andmostoftheexistingincompletedataimputationalgorithmsdonotconsiderthelocalstmilaritybetweenthesesampleswhichcannotguarant

8、eetheaccuracyofimputation.Aimingattheseproblems,thisP印erproposesallincrementalclusteringalgorithmbasedonauto。encoder,incrementalclusteringondynamicdatabylearningthemainfeaturesofdatasets.Then,basedonthisalgorithm,thispapertakeuse

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。