欢迎来到天天文库
浏览记录
ID:33636143
大小:1.16 MB
页数:45页
时间:2019-02-27
《基于lasso两级变量选择方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要变量选择是统计建模过程中极其重要的问题。在许多工程和科学应用中,自变量是以组结构的形式存在,这时,我们就要进行两级变量选择——既要进行组变量的选择,又要进行组内单个变量的选择。许多学者尝试使用惩罚回归的方法来处理两级变量选择问题:grouplasso、groupbridgelasso、gMCP、sparsegrouplasso等。但这些方法存在一定的不足:求解groupbridgelasso的算法不能保证其收敛,gMCP会选择较多的组变量等。在本文中,我们针对上述方法存在的不足,提出了两种改进方法。我们首先
2、指出]"sparsegrouplasso在处理变量选择时可能存在的过度压缩问题,我们针对其不足进行了两种相应的改进——改进的方法一和二,并分别给出了求解的方法及步骤。为验证方法的合理性和优越性,我们结合R软件,从模拟数据和实际数据两方面,把改进的方法二与其他两级变量选择方法做出了对比,结果比较令人满意。关键词:两级变量选择、grouplasso、adaptivelasso、LARS算法、LCD算法AbstractVariableselectionisanextremelyimpoRantpartofthesta
3、tisticalmodeling.Inmanyengineeringandscientificapplications,covariatcspossesagroupingstructure.Atthistime,weneedtoconductbi—levdsdcction—bothgroupedvariabl铬sdcctionandindividualvariableselectioninthegroups.Manyscholarshave缸iedtousepenalizedregressiontodealwi
4、ththisproblem:grouplasso,groupbridgelasso,gMCP,sparsegrouplasso,andSOon.However,thesemethodsexistsomelimitations:thealgorithmofgroupbridgelassocan’tguaranteethatthismethodconvergestothetrueminimum;thegMCPtendstoselecttoomanygroups,andSOon.Inourpaper,wepropos
5、edtwoimprovedmethodsforthedisadvantagesofthesemethods.Firstly,wepointouttheproblemsofthesparsegrouplasso.Weproposedtwoimprovedmethod----methodoneandmethodtwo,andgavethecorrespondingalgorithm.Toverifytherationalityandsuperiorityofthemethod,werecordedtheresult
6、sofmethodtwo,andcarriedoutsomecomparisonandsummarywiththeuseofR.Theresultsofmymethodaresatisfactory.Keywords:bi.1evelselection,grouplasso,adaptivelasso,LARSalgorithm,LCDalgorithmⅡ第一章引言1.1变量选择问题在实际问题中,影响因变量y的因素可能会很多,若漏掉对】,影响显著的自变量,建立的回归方程用于预测时会产生较大的偏差;若回归方程中包
7、含的变量过多,且其中有些自变量对y的影响不大,这样的回归方程不仅不方便,而且会影响预测精度,所以我们希望从中挑选对因变量影响显著的自变量来建立回归关系式,从而提高要拟合模型的预测行为,这就涉及到变量选择问题。变量选择【l】包括如下目标:第一:提高预测精度,减少预测模型中不必要的偏差;第二:增强预测模型的稳定性,使得回归模型不会因数据集的微小扰动导致系数估计较大的变动;第三:增强预测模型的主观可解释性,不会由于自变量样本数据的影响,造成拟合模型与主观认识相违背;第四:控制预测模型的时间复杂度:第五:发现真实模型的
8、结构,分析对因变量影响显著的自变量。当真实模型的自变量具有稀疏性时,变量选择显得尤其重要。在一般统计问题中,往往只涉及到单个变量的选择。但在多因素方差分析、基因表达的测定、定性变量的模型中,变量是分组存在的,这时需要进行组变量选择。如果此时忽视组变量这一信息,而使用单个变量的选择方法拟合模型,往往会产生不合理的现象。有时,当组变量中有些变量比较重要,有些变量可以忽略时,如果我们用单纯的
此文档下载收益归作者所有