高维数据的多视图聚类方法研究.pdf

高维数据的多视图聚类方法研究.pdf

ID:52428664

大小:7.79 MB

页数:174页

时间:2020-03-27

高维数据的多视图聚类方法研究.pdf_第1页
高维数据的多视图聚类方法研究.pdf_第2页
高维数据的多视图聚类方法研究.pdf_第3页
高维数据的多视图聚类方法研究.pdf_第4页
高维数据的多视图聚类方法研究.pdf_第5页
资源描述:

《高维数据的多视图聚类方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、博博博士士士学学学位位位论论论文文文高维数据的多视图聚类方法研究ResearchonMulti-viewClusteringforHigh-dimensionalData陈陈陈小小小军军军2011年年年10月月月国内图书分类号:TM301.2学校代码:10213国际图书分类号:62-5密级:公开工工工学学学博博博士士士学学学位位位论论论文文文高维数据的多视图聚类方法研究博士研究生:陈小军导师:徐晓飞教授副导师:黄哲学教授申请学位:工学博士学科:计算机应用技术所在单位:深圳研究生院答辩日期:2011年10月授予学位单位:哈尔滨工业大学ClassifiedInd

2、ex:TM301.2U.D.C.:62-5DissertationfortheDoctoralDegreeinEngineeringResearchonMulti-viewClusteringforHigh-dimensionalDataCandidate:ChenXiaojunSupervisor:Prof.XuXiaofeiCoSupervisor:Prof.JoshuaZhexueHuangAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerAppliedTechnologyAffi

3、liation:ShenzhenGraduateSchoolDateofDefence:October,2011Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要当前实际应用产生的数据维度越来越高,受维度效应的影响,许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年,高维数据的聚类方法是聚类分析的主要研究方向,众多国内外研究人员已经取得了不少研究成果,如子空间聚类、主题模型等。最近高维数据的多视图特性引起了研究人员的注意。多视图特性是指许多高维的特征

4、可以自然分为若干特征组,特征组中的特征具有语义相关性。传统的聚类方法将多个视图视作一个整体进行处理,忽略了视图内部的信息及视图之间的差异。近几年,研究人员提出了一些多视图聚类算法来解决上述问题。但现有多视图聚类研究存在如方法少、算法复杂度高、忽略视图关联关系及只能处理多视图结构已知的高维数据等缺点。本文在现有研究工作的基础上,针对高维数据多视图聚类存在的几个问题,结合软子空间聚类及主题模型最新研究成果,提出了一系列新颖的高维数据多视图聚类方法。主要研究工作和创新包括:1.将传统的特征加权扩展为双层特征加权,提出了一个多视图双层特征自动加权聚类方法TW-k-

5、means。该算法同时对视图及单个特征进行自动加权,可以有效地识别紧凑的视图及重要的特征。同时该算法具有与标准的k-means一样的算法复杂度,适合处理大数据。该方法的提出为变量加权聚类方法开辟了一条新的道路。2.将传统的子空间加权扩展为双层子空间加权,提出了一个多视图双层子空间自动加权聚类方法FG-k-means。该算法同时对定义在视图及单个特征上的子空间进行加自动权,可以有效地识别紧凑的视图子空间及重要的特征子空间。同时该算法具有与标准的k-means一样的算法复杂度,适合处理大数据。该方法的提出为子空间聚类方法开辟了一条新的道路。3.扩展传统的主题模

6、型提出一个用于寻找文档两个视图之间关联关系的主题模型TCM。新算法的特点主要体现在:1)同时对文档的两个视图包含的主题进行建模,2)计算两种不同主题的联合分布概率。实验结果表明TCM可以发现文档两个视图的关联关系,其建模性能优于传统的主题模型如LDA。该方法将流行的主题模型LDA成功扩展到多视图聚类领域。4.扩展传统的主题模型,提出一个适用于包含隐式多视图结构的高维数据的多视图聚类算法-隐含语义子空间模型LSSM。该算法主要用于文本数I哈尔滨工业大学工学博士学位论文据聚类,可以在聚类过程中自动将特征划分为一定视图(词簇/主题)并找到文档和视图之间的子空间结

7、构。LSSM的特点主要体现在:1)对文本数据同时文档和词两个方向进行建模,2)对文档簇和视图之间的条件概率建模。实验结果表明LSSM具有较好的建模性能及聚类性能。同时该模型也可以用于分类应用,并具有较好的分类性能。该模型的提出扩展了多视图聚类算法的应用范围。本研究提出的四个算法中,TW-k-means和FG-k-means具有速度快的特点,能够解决现有多视图聚类算法存在的算法复杂度高的问题。TCM的提出则解决了现有多视图聚类算法忽略视图关联关系的问题。而LSSM的提出则解决了现有多视图聚类算法只能处理多视图结构已知的高维数据的问题。在模拟数据及真实数据上的

8、实验结果证实了这四种方法的有效性。这四种新的多视图聚类算法的提出,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。