欢迎来到天天文库
浏览记录
ID:23959625
大小:7.03 MB
页数:89页
时间:2018-11-12
《基于特征选择的高维数据统计分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:0213密级:公开_tWf火書研究生学位论文论文题目(中文)基于特征选择的高维数据统计分析论文题目夕卜文StatisticalanalsisofHigh-dimensionaldata()ybasedonFeatureselection研宄生姓名苏锦霞学科、专业数学概率论与数理统计研究方向高维数据统计分析学位级别博士导师姓名、职称荆炳义教授论文工作起止年月2015年3月至2018年3月论文提交日期2018年4月
2、论文答辩日期2018年5月学位授予日期校址:甘肃省兰州市12〇110326〇学院:数学与统计学院学号:卯学生姓名:苏锦霞导师姓名:荆炳义.学科名称:数学概率论与数理统计论文题目:基于特征选择的高维数据统计分析原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人己经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中己经注明引用的内容外,不包含任何其他个人或集体己经发表或撰写过的科研成果。对本文的
3、研宄成果做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:7吼Of:日期关于学位论文使用授权的声明,本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大....,.学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以釆用任何复制手段保存和汇编本学位论文。本人离
4、校后发表、使用学位论文或一。与垓论文直接相关的学术论文或成果时,第署名单位仍然为兰州大学本学位论文研宄内容:以公开□不宜公开,已在学位办公室办理保密申请,解密后适用本授权书。“”一(请在以上选项内选择其中项打V)论文作者签名^人:%导师签名://2日期:>.^日期:I*.*_??.i基于特征选择的高维数据统计分析中文摘要一一高维数据降维问题直是统计机器学习和数据分析的核心问题之,有着广泛的应用基础。协变量包括噪音变量、冗余变量对数
5、据的影响无处不在,尤其当协变()量呈现高维形态,大部分变量的影响可以忽视时,此时变量选择显得尤为重要。本论12:基于变量选择的应用于统计分类数据异常值的检测与识别文主要考虑;(数())3高维II-值型变量数据无监督学习聚类的变量选择;以及()协变量影响下型逐阶)(删失数据的特征选择。一异常值的存在使得分类器的制定变得更为复杂。论文第部分探讨了在选择合适分类器之前,如何检测及识别异常值问题。通过综合复相关系数计算,特征变量一-选择降维和t检验稀疏化方法以及基于标准互信息的降维方法,给出了种异常值
6、矩阵检测识别的新方法E-il。数值分析以及低维鸢尾花数据、高维DBWORDma数据的应用结果均表明该方法在识别异常值应用中有着良好的表现。在无监督学习聚类分析中,RodriguezandLaio2014于SCIENCE上提出的()关于快速寻找密度峰值进而聚类的算法简称RL算法,此方法由于不需要迭代遍历()所有数据点的优越性而被广泛关注。本论文将RL算法推广于数据流的应用分析中,同时研究了在高维数据中如何根据稀疏主成分降维简化数据结构,进而应用RL算法对高维数据进行有效聚类。模拟数据和实
7、际Olivetti人脸识别数据聚类分析结果验证了算法的有效性。在生存分析参数模型中,参数估计为研究生存数据统计性质提供了依据。当协变量个数众多而部分协变量对生存寿命的影响可忽略不计时,寻找起主要作用的协变量,即进行特征选择降维以简化模型成为首要问题。论文探讨了在高维协变量下-的II型逐阶删失数据的Lasso型部分似然函数的变量选择,并通过应用模拟数据、退伍军人管理局肺癌数据以及原发性胆汁性肝硬化数据验证了此结果的有效性。关键词:高维数据;稀疏主成分分析;特征选择;异常值检测;聚类分析;生存
8、分析。IStatisticalanalysisofHigh-dimensionaldatabasedonFeatureSelectionAbstractDimensionalreductionisanimportantissueinstatisticallearnin
此文档下载收益归作者所有