欢迎来到天天文库
浏览记录
ID:37380357
大小:2.50 MB
页数:64页
时间:2019-05-22
《对高维数据可视化若干问题的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、原创性声明本人声明:所呈交的硕士学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:宾宋了Q日}A:}-}}年r月}卯日关于论文使用授权说明本人同意学校有权保留并向国家有关部门送交学位论文的复印件,允许论文被查阅和借阅。c不同意)学校及国家有关机构有权公布论文的全部或部分内容,并采用影印、缩印或其他复制手段
2、保存论文口论文作者签名:祥孔阳指导教师签名:耳协徒日期:衬”飞.5,14日期:Zoo乡Irl}b日内容提要本文的工作主要围绕高维数据可视化的两个子问题:聚类算法的可视化问题和与地理相关数据的可视化问题。聚类算法可视化试图用可视化技术弥补聚类算法的缺点:聚类结果不易被理解。为了更深入的理解聚类算法可视化的特点,本文用Cure算法对高维的人脸特征数据聚类,探索聚类分析技术在人脸识别领域中的应用,并对Cure算法进行了若干改进。由此认识到,聚类算法可视化的关键是尽可能在显示时保持数据间的位置关系。所以本文用FastWap算法对数据降
3、维后再显示,并用可视化方法揭示其他重要信息。最后本文证明;如果用基于像素的可视化技术显示与地理相关的高维数据,那么在一定条件下,可以在多项式时间内取得最优的显示效果。第一章前言第一章前言信息可视化技术(InformationVisualization)是一门新兴的技术。它把先进的计算机技术、图像处理、计算机视觉交互技术、认知学等结合起来,用图形图像显示不易为人理解的数据,从而最终使人参与到信息处理过程中。本文主要对可视化领域中的高维数据可视化问题进行研究,探讨了其中的两个子问题:(1)聚类算法的可视化问题;(2)与地理相关数据
4、的可视化问题。前者用可视化技术弥补聚类算法的缺点:聚类结果不易为人理解。这一缺点在进行高维数据聚类时更加突出。后者证明:如果用基于像素的可视化技术显示与地理相关的高维数据,那么在一定条件下,可以在多项式时间内取得最优的显示效果。首先简介信息可视化技术:分析高维数据的可视化及聚类算法的可视化;最后介绍了全文结构。1.1信息可视化技术简介1.1.1信息可视化技术的诞生背景随着科学技术的发展,人们能够从外界获取数里庞大的数据。比如卫星扫描数据、以及各种海量数据库。但这些数据不能直接成为人们需要的信息,因此需要从数据中“找到”信息。庞
5、大的数据量一方面说明潜藏着大量的信息,另一方面也给信息选取带来了困难。虽然可以借助计算机提取所需信息,如使用数据挖掘技术。但是信息的提取在很多情况下具有模糊性,尤其在没有先验知识的情况下。不妨作个比喻,顾客要买一双鞋,只有在商场里溜达了很长时间以后,才能知道什么样的鞋是他需要的。搜寻信息的过程与此类似。因此,单纯依靠程序来寻找信息的方法,其效果并不好。正因为缺乏有效的分析手段,常常不得不割舍庞大数据群中的有用数据。与数据相比图像图形要更直观,可以让人们“见”到平时“见”不到的信息.甚至能直接发现数据中隐含的信息。因此.科学工作
6、者把先进的计算机技术、图像处理、计算机视觉交互技术等结合起来.将数据转化为几何图形及图像信息.使人参与到信息处理的过程中。这样就可以把人的模糊推理能力与计算机的强大计算力结合起来。人们获取信息的能力也将随之增强。2第一章前言1.2.2聚类算法可视化一般来讲,在无先验知识的情况下,适于采用聚类分析技术。当聚类算法产生的聚类内部相似程度越高时,使用其它技术对它们进一步处理的效率就越高,发现有用规则或模式的机会也就会越大‘列。但聚类算法的缺点是:聚类结果不易表示;且算法受初始参数的影响较大。以Cure算法为例【10],它用三个初始参
7、数:一个用于确定聚类的收缩度:一个确定描述聚类形状的代表点的个数;最后一个为算法中止时求得的类数。参数取值不同,聚类结果将有很大不同。聚类算法可视化就是为弥补这些缺欠,是算法可视化的分支。它使用可视化技术,使人们看到聚类结果,从而调整算法参数、判定算法优劣、进而改进算法。1.2.3高维数据聚类的可视化如果要可视化高维数据的聚类结果,那么聚类算法的可视化就面临着高维数据可视化的问题。对此,通常的做法是把高维聚类按某几维的值,投影到2维或3维空间m这样,本来在高维空间分开的聚类就不可避免地被重叠显示,影响到人们对聚类效果的理解。还
8、有些方法,如H-BLOB"zInW方法,虽针对Hierarchical类型的聚类算法专门开发的,但它不能揭示影响聚类算法效果的因素:数据簇的密度、数据的分布范围等,以及一些特殊的数据:离群点、类中心等二因为缺少可视化高维数据聚类的有效方法,许多文献[m1[64]用低维数据作示
此文档下载收益归作者所有