欢迎来到天天文库
浏览记录
ID:23607727
大小:5.57 MB
页数:134页
时间:2018-11-09
《数据相关性分析和维数约简方法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文图书分类号:TP181密级:公开UDC:004学校代码:10005博士学位论文DOCTORALDISSERTATION论文题目:数据相关性分析和维数约简方法的研究与应用论文作者:张亚红学科:计算机科学与技术指导教师:李玉鑑论文提交日期:2017.06.11UDC:004学校代码:10005中文图书分类号:TP181学号:B201307007密级:公开北京工业大学工学博士学位论文题目:数据相关性分析和维数约简方法的研究与应用英文题目:THESTUDYOFCORRELATIONANALYSISANDDIMENSIONALITYREDUCTIONMETHODSANDTHEIR
2、APPLICATIONS论文作者:张亚红学科专业:计算机科学与技术研究方向:模式识别与机器学习申请学位:工学博士指导教师:李玉鑑教授所在单位:信息学部答辩日期:2017年5月授予学位单位:北京工业大学DissertationSubmittedtoBeijingUniversityofTechnologyforDoctorDegreeofEngineeringTHESTUDYOFCORRELATIONANALYSISANDDIMSENSIONALITYREDUCTIONMETHODSANDTHEIRAPPLICATIONZHANGYAHONGSupervisedbyProfe
3、ssorLIYUJIANMajorinComputerScienceandTechnologyBeijingUniversityofTechnologyMay,2017独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:张亚红日期:2017年5月26日关于论文使用授权的说明本人完全了解北京工业大学有关保
4、留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:张亚红日期:2017年5月26日导师签名:李玉鑑日期:2017年5月26日摘要摘要面对基因组学、物理学、政治科学、经济学等众多领域日益增长的海量数据,人们越来越多地依赖计算机智能化地从海量数据中获取解决问题所需的有用信息。作为数据智能化分析的两种有效手段,数据相关性检测技术和维数约简技术受到广泛关注。相关性检测方法能够自动地发现数据集中变量间的相关关系;维数约简方法将数据特征从高维
5、降到低维,降维后的特征更能体现数据的本质结构,并且降低了后续数据处理的计算代价。本文对数据相关性分析和维数约简的理论方法和实际应用进行了深入的研究,主要工作概括如下:1.提出了检测多元变量间相关关系的最大信息熵法。对于k元变量集合,该方法首先根据任意两个变量间的最大信息系数值来构造最大信息矩阵R,然后由R的正特征根来计算这k个变量间的最大信息联kk合熵H,最后用1H来衡量变量间依赖关系的强弱。三维空间曲线上的仿真RR实验证明了最大信息熵能够检测三元变量间的一维流形依赖;此外,通过全球健康数据集的相关性检测实验,证实了该方法的有效性和可行性。2.提出了直接检测三元变量间一维
6、流形依赖关系的最大全相关系数法。最大全相关系数的基本思想是:如果三元变量间存在某种相关关系,那么在它们的散点图上就能够构造一个特殊的3维网格,使得数据点在该网格上的全相关明显大于0。最大全相关系数就是通过具有最大归一化全相关的网格来定义的,并由此来评估变量依赖关系的强弱。利用动态规划思想,本文设计出了可以快速求解最优划分的3维网格,并以大量仿真数据集和真实数据集上的实验证实了最大全相关系数的通用性、公平性和有效性。3.提出了一种基于相似性传播的维数约简方法该方法基于原始特征间的相似性,利用相似性传播算法将原始特征进行聚类,再对每个类别中的原始特征进行权重组合得到新的特征(抽
7、取特征),以达到维数约简的目的。该方法能够实现数据维数的自动约简,且不需要求解数据协方差矩阵的特征值和特征向量等复杂运算,保证了算法的计算效率。UCI公开数据集上的可视化和分类实验结果显示新方法的性能要优于二次规划特征选择(QPFC)、近邻保存嵌入(NPE)和自组织特征聚类维数约简(SCFC)等维数约简方法。4.提出了一种基于费希尔信息度量的随机近邻嵌入方法该方法将文本的词频向量看作统计流形上的概率密度样本点,利用费希尔信息度量计算样本点间的距离,从信息几何的观点出发,对t分布随机近邻嵌入I北京工业大学工学博
此文档下载收益归作者所有