资源描述:
《基于密度峰值的大数据多粒度分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP181,TP311国际图书分类号:004.8西西西南南南交交交通通通大大大学学学研研研究究究生生生学学学位位位论论论文文文基于密度峰值的大数据多粒度分析研究年级2012级姓名徐计申请学位级别博士专业计算机科学与技术导师王国胤教授二○一七年十一月ClassifiedIndex:TP181,TP311U.D.C:004.8SouthwestJiaotongUniversityDoctorDegreeDissertationMULTI-GRANULARBIGDATAANALYTICSBASEDONDENSITYPEAKGrade:2012C
2、andidate:XuJiAcademicDegreeAppliedfor:DoctorofPhilosophySpeciality:ComputerScienceandTechnologySupervisor:Prof.WangGuoyinNovember,2017西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担
3、。本学位论文的主要创新点如下:(1)提出一种高效多粒度聚类算法,该算法在每个可能的粒度上直接获得聚类结果,不需要传统的“聚合”或“拆分”过程。本算法简称为DenPEHC,从基于密度峰值的聚类方法发展而来。通过分析?参数曲线形状和引入一种刻画数据之间偏序关系的“引领树”的结构,自动选择全部聚类中心并确定各个聚类粒度,以多粒度聚类的方式构建了多粒度信息知识表达模型。由于具备检测任意形状类簇的能力,因此针对非球形数据的聚类结果也更加准确。进一步通过网格粒化的方式,把DenPEHC扩展到可以对高维海量数据进行层次聚类。(第3章)(2)针对当前数据流聚类中存在的
4、精确性和及时性问题,提出一种基于胖节点引领树(FNLT)的数据流聚类方法,该方法能够实时提供聚类结果且能够检测任意形状类簇。本数据流聚类方法简称为DP-Stream,它以“引领树”为基础,合并其中位置紧邻的点而成为胖节点引领树。以FNLT作为最近期和当前数据的概要表示模型,研究了异常点检测、新到数据点融入、FNLT增量更新、FNLT粒化、数据老化和删除,以及概念漂移等一系列问题。与前沿的数据流聚类方法相比,DP-Stream展示了具有竞争力的准确性和时间效率。(第4章)(3)由于现存遵循合理粒化准则的粒化方法准确性和效率有待提高,提出一种可以检测任意形
5、状信息粒的高效最优粒化模型,以及概要表示任意形状信息粒的流形描述子。基于局部密度提出的最优粒化模型简称为LoDOG,该模型在引领树构建完毕的前提下只需要线性扫描可能的信息粒个数,即可求得最优粒化方案,具有准确高效的特点。针对任意形状信息粒描述困难的问题,在原始数据分布存在几何流形的情况下,提出了基于流形降维和地标点提取的流形描述子,采用具有代表性的少量数据点近似刻画整个数第6页西南交通大学博士研究生学位论文西南交通大学博士研究生学位论文第I页摘要随着大数据时代到来,数据的获取、传输和存储融入了人类生产生活的各个领域,而大数据核心价值来自对它的分析和理解
6、.然而面对如此海量、高速和异构的数据,人类的认知和理解能力不能满足价值发现的需要.粒计算作为一种模拟人类知识表示和问题求解的近似数据分析基本范式,其优点是在解决特定问题时能够选择合适粒度,而不总是基于最细粒度的原始数据进行计算.所以,粒计算通常能够以更高的效率获得有效解.近年来,基于密度峰值的聚类方法DPClust以其准确性和高效性受到广泛关注.我们发现了DPClust背后的哲学思想是:邻域数据之间的地位并不平等,而是处于偏序关系之中.基于DPClust中间结果构建的引领树结构正是这种偏序关系的具体实现.本文利用这种偏序关系和引领树结构,层层递进地研究
7、了它们在大数据聚类和分类问题中的应用,主要贡献如下:(1)针针针对对对静静静态态态海海海量量量数数数据据据,提提提出出出一一一种种种基基基于于于密密密度度度峰峰峰值值值的的的高高高效效效多多多粒粒粒度度度聚聚聚类类类方方方法法法DenPEHC.该方法不需要迭代寻优以进行类簇的“拆分”或者“合并”,而是通过分析?曲线的形状和引领树结构,在每个可能的聚类层次上直接到聚类结果.并且提出一种网格粒化框架,使得DenPEHC可以对高维海量数据进行层次聚类.这项研究工作包含三个部分:(一)使用?的分布和线性拟合方法来选择聚类层次中的中心,而每个聚类层次由?曲线中的
8、“台阶”确定;(二)分析作为DPClust聚类方法中间结果的引领树结构,高效构建聚类层次;以及