基于特征选择的高维数据统计分析

基于特征选择的高维数据统计分析

ID:23959625

大小:7.03 MB

页数:89页

时间:2018-11-12

基于特征选择的高维数据统计分析_第1页
基于特征选择的高维数据统计分析_第2页
基于特征选择的高维数据统计分析_第3页
基于特征选择的高维数据统计分析_第4页
基于特征选择的高维数据统计分析_第5页
资源描述:

《基于特征选择的高维数据统计分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:0213密级:公开_tWf火書研究生学位论文论文题目(中文)基于特征选择的高维数据统计分析论文题目夕卜文StatisticalanalsisofHigh-dimensionaldata()ybasedonFeatureselection研宄生姓名苏锦霞学科、专业数学概率论与数理统计研究方向高维数据统计分析学位级别博士导师姓名、职称荆炳义教授论文工作起止年月2015年3月至2018年3月论文提交日期2018年4月

2、论文答辩日期2018年5月学位授予日期校址:甘肃省兰州市12〇110326〇学院:数学与统计学院学号:卯学生姓名:苏锦霞导师姓名:荆炳义.学科名称:数学概率论与数理统计论文题目:基于特征选择的高维数据统计分析原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人己经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中己经注明引用的内容外,不包含任何其他个人或集体己经发表或撰写过的科研成果。对本文的

3、研宄成果做出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:7吼Of:日期关于学位论文使用授权的声明,本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大....,.学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以釆用任何复制手段保存和汇编本学位论文。本人离

4、校后发表、使用学位论文或一。与垓论文直接相关的学术论文或成果时,第署名单位仍然为兰州大学本学位论文研宄内容:以公开□不宜公开,已在学位办公室办理保密申请,解密后适用本授权书。“”一(请在以上选项内选择其中项打V)论文作者签名^人:%导师签名://2日期:>.^日期:I*.*_??.i基于特征选择的高维数据统计分析中文摘要一一高维数据降维问题直是统计机器学习和数据分析的核心问题之,有着广泛的应用基础。协变量包括噪音变量、冗余变量对数

5、据的影响无处不在,尤其当协变()量呈现高维形态,大部分变量的影响可以忽视时,此时变量选择显得尤为重要。本论12:基于变量选择的应用于统计分类数据异常值的检测与识别文主要考虑;(数())3高维II-值型变量数据无监督学习聚类的变量选择;以及()协变量影响下型逐阶)(删失数据的特征选择。一异常值的存在使得分类器的制定变得更为复杂。论文第部分探讨了在选择合适分类器之前,如何检测及识别异常值问题。通过综合复相关系数计算,特征变量一-选择降维和t检验稀疏化方法以及基于标准互信息的降维方法,给出了种异常值

6、矩阵检测识别的新方法E-il。数值分析以及低维鸢尾花数据、高维DBWORDma数据的应用结果均表明该方法在识别异常值应用中有着良好的表现。在无监督学习聚类分析中,RodriguezandLaio2014于SCIENCE上提出的()关于快速寻找密度峰值进而聚类的算法简称RL算法,此方法由于不需要迭代遍历()所有数据点的优越性而被广泛关注。本论文将RL算法推广于数据流的应用分析中,同时研究了在高维数据中如何根据稀疏主成分降维简化数据结构,进而应用RL算法对高维数据进行有效聚类。模拟数据和实

7、际Olivetti人脸识别数据聚类分析结果验证了算法的有效性。在生存分析参数模型中,参数估计为研究生存数据统计性质提供了依据。当协变量个数众多而部分协变量对生存寿命的影响可忽略不计时,寻找起主要作用的协变量,即进行特征选择降维以简化模型成为首要问题。论文探讨了在高维协变量下-的II型逐阶删失数据的Lasso型部分似然函数的变量选择,并通过应用模拟数据、退伍军人管理局肺癌数据以及原发性胆汁性肝硬化数据验证了此结果的有效性。关键词:高维数据;稀疏主成分分析;特征选择;异常值检测;聚类分析;生存

8、分析。IStatisticalanalysisofHigh-dimensionaldatabasedonFeatureSelectionAbstractDimensionalreductionisanimportantissueinstatisticallearnin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。