欢迎来到天天文库
浏览记录
ID:33174244
大小:6.67 MB
页数:140页
时间:2019-02-21
《基于局部逼近的数据分析及其在人脸识别和基因微阵列缺失值估计中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中山大学博士学位论文基于局部逼近的数据分析及其在人脸识别和基因微阵列缺失值估计中的应用姓名:刘朝春申请学位级别:博士专业:应用数学指导教师:戴道清20090601摘要论文题目:专业:博士生:指导教师:基于局部逼近的数据分析及其在人脸识别和基因微阵列缺失值估计中的应用应用数学刘朝春戴道清教授随着信息技术的迅速发展,生物医学、工程、商业、科学研究等各个领域积累了大量的数据,并且数据积累的速度越来越快。数据积累的目的往往是希望从中挖掘出一些有用的信息,因此数据分析成为社会信息化必不可少的一个要素。通常数据分析主要有三个根本任务:分类、回归和聚类分析,它们都包含了两
2、个核心要素:数据以及它们的分布函数。本文以这两个要素为轴线将三个根本任务统一在逼近分析的框架内,即:对数据本身的逼近、对数据分布函数的逼近。由于很多数据的维数都较高,且含有噪音,因此不仅数据自身的内部结构复杂,它们的分布函数也是多呈非线性、非凸的复杂分布,对这些数据做全局逼近往往效果较差,或者复杂度很高。因此本文着重于研究基于局部逼近的数据分析,及其在人脸图像分析与识别、基因微阵列缺失数据估计中的应用。在对数据本身的局部逼近方面,本文主要探讨基于小波基的人脸图像特征逼近,及其在人脸识别中的应用。人脸图像由于受到光照、姿势、表情、平移、遮挡物的外部影响,在空间
3、域上的结构十分复杂。因此人脸识别的关键就在于如何有效地提取不受外部变化影响的人脸特征,目前这仍然是一个开放性的问题。在对数据分布函数的逼近方面,本文主要探讨局部加权逼近的泛化模型,并将这个模型应用于基因微阵列缺失数据的估计。这虽然是一个基因数据的预处理过程,但是却直接影响到基因数据的后续分析,因此也是至关重要的。针对这些问题,本文主要有如下的三个创新性工作,其中第一、二两点针对对人脸图像的局部逼近与识别问题,第三点针对基因微阵列缺失数据的估计问题:摘要(1)探讨基于小波包局部逼近的人脸识别算法,尤其是小波包字典中的特征选择/提取问题。通过分析小波包系数的特点
4、以及扭曲的人脸曲面的频谱特性,我们指出了经典的局部判别基(10caldiscriminantbasis,LDB)算法以及绝对距离在小波包特征提取中的缺陷,并提出了一个观点:要选择最优的判别特征,就应该不受各个坐标所在频率子带的限制,而是直接以各个坐标的判别力为准绳。然后,为了回答几个问题:如何衡量各个坐标的判别力;如何保证各个坐标的挑选不受各子带的影响;如何挑选最具判别力的坐标?我们分别提出了样本空间可分性、伸缩不变熵的概念和基于最大logistic后验概率的特征选择模型。在实现局部判别坐标(10caldiscriminantcoordinates,LDC)
5、挑选的基础上,我们提出了一个新的人脸识别算“DC人脸识别算法。此外,为了改进欧式距离和cosine相关性的不足,我们提出了三角平方比的相似性度量,它同时考虑了两个向量之间的距离和相关性。(2)探讨基于对偶树复小波基逼近的人脸特征表示。我们提出了一个新的基于对偶树复小波基逼近的人脸特征表示---complex-WT-face。它可以有效地表示人脸图像的内在几何结构,且冗余性和维数都很低。同时我们通过实验证明了:对偶树复小波基在平移和光照变化下对人脸图像的逼近能力要优于离散小波基和Gabordx波基,并且只需要线性的计算复杂度,远小于Gabord,波基。这为对偶
6、树复小波基取代离散小波、Gabordx波在人脸识别领域的应用提供了可能。此外,我们注意到由于人脸图像具有有限的支集,当小波的滤波器通过人脸图像的边界时,它产生的每个频率子图像的边界像素值会产生突然的跳跃变化,即Gibs振荡,所以我们提出了一个修剪的方法来抑制Gibs振荡导致的许多虚假奇异点对正常奇异点检测的影响。(3)提出了一个将局部加权逼近模型应用于基因微阵列缺失数据估计的理论框架,它以Taylor级数逼近为理论基础。对于每个含缺失值的目标基因,该局部加权逼近模型可以自适应地产生它的候选基因集,并且通过权重函数分配各个候选基因对缺失值估计的影响力。我们证明
7、了该理论框架的平凡形式即是经典[}勺KNNimpute算法,并在理论和实验层面上,详细地研究该理论框架的线性形式一局部加权线性逼近的数据估计算濠LWLAimpute)。为Ⅱ摘要了更好地研究LWLAimpute算法,我们提出了拟渐进性质的概念,并通过实验证明了基于一阶黼LWLAimpute算法拥有很好的拟渐进性质,而基于零阶逼近的KNNimpute算法并不拥有。该性质使得LWLAimpute算法可以舍弃传统局部填充方法必须使用的预选择操作。因而对于每个含缺失值的目标基因,LWLAimpute算法可以充分利用它的所有候选基因在它周围的分布信息去估计它的缺失值,不
8、会受到预选择操作的影响而错过一些有用的信息。所以LW
此文档下载收益归作者所有