基于变量选择偏差的变量选择过程

基于变量选择偏差的变量选择过程

ID:35062697

大小:5.90 MB

页数:75页

时间:2019-03-17

基于变量选择偏差的变量选择过程_第1页
基于变量选择偏差的变量选择过程_第2页
基于变量选择偏差的变量选择过程_第3页
基于变量选择偏差的变量选择过程_第4页
基于变量选择偏差的变量选择过程_第5页
资源描述:

《基于变量选择偏差的变量选择过程》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、II朵击种成J:赛UNIIENCEANDr巨CHNOLOFCHINAIV巨RSITYOFELECTRONCSCOGY硕±学位论文胃MASTERTHESIS幽I-!"^{蘇一V:VV论文题园基于变量选择偏差的变量选择过程,晋占学科专业计算机欽件与利I论学号201321060213作者姓名王双宝指导教师杨圃武教授■分类号密级UDC注1学位论文基于变量选择偏差的变量选择过程(题名和副题名)王双宝(作者姓

2、名)指导教师杨国武教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2016.03.28论文答辩日期2016.05.18学位授予单位和日期电子科技大学2016年06月答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。VARIABLESELECTIONALGORITHMBASEDONVARIABLESELECTIONDEVIATIONAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyo

3、fChinaMajor:ComputerSoftwareandTheoryAuthor:ShuangbaoWangAdvisor:GuowuYangSchool:SchoolofComputerScience&Engineering独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加W标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做

4、的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期年^月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可W将学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定) ̄作者签名:^毛导师签名:日期;7^,6年《月日摘要摘要随着大数据时代的到来,数据的维

5、度越来越高而且数据中的冗余信息越来越多,统计学习和机器学习从包含大量的冗余信息的数据中学习或发现有用的信息越来越困难,因此在对数据建模前需要进行变量选择。若假设潜在真实模型为线性模型时,常见的变量选择算法有Lasso、MCP、SCAD等算法。但是Lasso算法所选择的模型趋向于包含了大量的冗余变量;MCP算法所选择的模型趋向于选择更少的变量但丢失了部分重要的变量;SCAD算法所选择的模型与潜在真实模型或真实模型的距离较大。因此,这三种变量选择算法都存在它们自身的固有缺点。本文使用了变量选择偏差的概念(变量选择偏差可以有效

6、的删除冗余变量的同时尽可能的保留重要变量),使用它度量选择的模型与潜在真实模型的之间的距离。因而,本文提出了基于变量选择偏差的变量选择过程(下文称为基于变量选择偏差的变量选择算法),同时基于此提出了基于变量选择偏差的变量排序算法。基于变量选择偏差的变量选择算法是选择拥有最小的变量选择偏差值的变量子集为最优变量子集,其最优变量子集与潜在的真实模型之间的对称差最小,在拥有最少的冗余信息的同时尽可能地包含了有用的、隐藏在数据中的结构信息。文中给出了求解最小变量选择偏差值的最优变量子集的过程和方法,并用数学方法证明了该方法的解是

7、全局最优的。基于变量选择的偏差的变量排序,是使用变量选择偏差对变量进行加权,选择变量权大于某个阀值的变量作为最优的变量子集。该算法所得到的变量子集与阀值大小有关。当阀值为0.5时,基于变量选择的变量选择偏差的变量选择算法和该算法所得到的变量子集是一样的。因此,使阀值小于0.5,那么基于变量选择偏差的变量排序算法所得到变量子集会包含有用信息会更多一些,将有助于对未知样本的预测和区分。本文将两个新的算法和三种传统的变量选择算法(Lasso、MCP、SC-AD)应用于仿真数据和真实数据上,将它们的在未知数据上表现出的性能进行了

8、全面的对比。在噪声水平不是很高的情况下,基于变量选择偏差的变量选择算法在模型预测能力上与Lasso相当,强于MCP和SCAD算法,但是选择的冗余变量远少于Lasso算法。因此基于变量选择偏差的变量选择算法所选择的变量子集中与潜在真实模型之间的距离相对于Lasso、MCP、SCAD的更近,更加可以有效的刻画和描述数据。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。