高维不完整数据的特征选择研究

高维不完整数据的特征选择研究

ID:34870678

大小:2.63 MB

页数:63页

时间:2019-03-12

高维不完整数据的特征选择研究_第1页
高维不完整数据的特征选择研究_第2页
高维不完整数据的特征选择研究_第3页
高维不完整数据的特征选择研究_第4页
高维不完整数据的特征选择研究_第5页
资源描述:

《高维不完整数据的特征选择研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:单位代码:10140密级:公开学号:4031531905?i£¥AfLIAONINGUNIVERSITY硕士学位论文THESI中文题目:高维不完整数据的特征选择研究论文题目:ResearchonFeatureSelectionofHighDimensionalIncomlteD英文题目:peata论文作者:杨钧指导教师:王妍副教授专业:计算机应用技术二〇一寸间:八年五月辽宁大学学位论文原创性声明本人郑重声明:所呈交的学

2、位论文是本人在导师的指导下独立完成的。论文中取得的研宄成果除加以标注的内容外,不包含其他个人或集体已经发表或撰写过的研宄成果,不包含本人为获得其他学位而使用过的成果。对本文的研宄做出重要贡献的个人和集体均己在文中进行了标注,并表示谢意。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:年广月0>学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交学位论文的原件、复印件和电子版,允许学位论文被

3、查阅和借阅。本人授权辽宁大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编学位论文。学校须按照授权对学位论文进行管理,不得超越授权对学位论文进行任意处理。保密(),在年后解密适用本授权书。(保密:请在括号_“,,内戈丨JV)授权人签名?.指导教师签名:日期:年r月k曰日期:年疒月>日申请辽宁大学硕士学位论文高维不完整数据的特征选择研究ResearchonFeatureSelectionofHighDimensi

4、onalIncompleteData作者:杨钧指导教师:王妍副教授专业:计算机应用技术答辩日期:2018年5月22日二○一八年五月·中国辽宁摘要摘要在机器学习中,人们经常需要处理含有大量特征同时包含很多实例的高维数据集。对于这类数据集,存在冗余甚至干扰特征。因此,特征选择成为了机器学习中的一个研究热点,其可以选择出规模更小,表达效果更好的特征子集,既降低了机器学习算法的计算代价,又可以提高学习算法的准确率。此外,数据采集过程中的各种因素,诸如探测仪器的限制、样本破损、环境的干扰,使得采集的数据存在缺失,

5、导致实际应用中不完整数据的大量存在。高维不完整数据成为了数据挖掘和机器学习中不可回避的问题。针对现有特征选择算法存在的问题和不足,本文从新的思维角度出发,深入研究了面向高维不完整数据的特征选择算法。首先调研了关于不完整数据处理方式和特征选择算法研究背景和发展现状,对现有的方法进行了总结,指出了存在的问题和不足。针对传统不完整数据的处理通常采用丢弃和填补的方式容易导致严重的数据偏离问题,提出一种直接在不完整数据上进行特征重要度的计算方法。该方法首先将数据矩阵根据完整度划分为3个部分,接着考虑每一个缺失值的

6、可能性,然后采用基于概率分布和基于元组数量的合并方式,有效的完成了不完整特征重要度的计算。其次,针对现有特征选择算法在高维数据上效果不理想,提出了一种基于随机矩阵的高维数据特征选择方法。其通过将相关矩阵中符合随机矩阵预测的奇异值去除,从而得到改进后的相关矩阵和选择特征的数量,接着对改进后的相关矩阵进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择。此外,还提出一种特征选择优化方法,通过依次将每一个特征设为随机变量,比较其奇异值向量与原始奇异值向量的差异来进

7、一步优化结果。最后,为了验证本文所提出方法对高维不完整数据特征选择中的有效性,本文通过在多个高维不完整数据集上进行分类实验,以分类准确率、特征选择数量和缺失率为评价指标验证了本文所提出的方法对高维不完整数据的特征选择问题上是有效的。关键词:高维,不完整数据,特征选择,随机矩阵IAbstractAbstractInmachinelearning,peopleoftenneedtodealwithhigh-dimensionaldatasetsthatcontainalargenumberoffeature

8、sandmanyinstancesatthesametime.Forsuchdatasets,thereisredundancyoreveninterferencefeatures.Therefore,featureselectionhasbecomearesearchhotspotinmachinelearning.Itcanchooseafeaturesubsetwithsmallerscaleandbetterexpressionef

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。