含缺失数据线性模型中的变量选取

含缺失数据线性模型中的变量选取

ID:39133645

大小:529.28 KB

页数:18页

时间:2019-06-25

含缺失数据线性模型中的变量选取_第1页
含缺失数据线性模型中的变量选取_第2页
含缺失数据线性模型中的变量选取_第3页
含缺失数据线性模型中的变量选取_第4页
含缺失数据线性模型中的变量选取_第5页
资源描述:

《含缺失数据线性模型中的变量选取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、AbstractWewillconsidervariableselectioninthelinearmodel.inthecaseofmissingdata.Atfirst瓢圯willselectvariablesoncompleteobservationsviaLeastangleregressionandBICcriteriaOursimulationstudiessuggestthatthismethodisstableandsavetime.Thenweuseleastsquareestimatestoestablishregressionequationsfo

2、rallthedata.WeusepredictiontoinputmissingdataanduseLARSandBICtoselectvariablesKeywords:missingdata;linearmodel;variableselectionII目录中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯,·I英文摘要录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··III引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯··l§1.几种不同的变量选择方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3§2.算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·12§

3、3.模拟⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·13§4.应用举例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯--16结语⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯-·17参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..18后记⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..20东北师范大学硕士学位论文己I吉丁I口在本文中,我们将研究蝙蝠这组数据,发现影响蝙蝠活动的影响因子达到30个,为了更好的对蝙蝠活动作出解释和预测,有必要对这组数据作变量选择,但我们发现,作为因变量的蝙蝠活动是含有缺失数据的,所以在本文中,我们将对缺失数据进行变量选择。在统

4、计学的研究历史中,变量选择有其特定的地位。在现实生活中,对一种现象或事物的影响因子,可能会达到几十种或上百种,但是基于我们要对这种现象或事物进行解释或预测,这时如果我们将所有的影响因子都考虑进来的话,不仅预测误差会很大,这势必会影响对对这种现象或事物的预测精度,而且,要进行解释的话,将几十种影响因子都考虑进来的话,解释也很难进行,所以有必要挑选出对这种现象或事物的影响比较大的几种影响因子在线性模型中,已经提出了很多种不同的变量选择标准,现在有通过交叉核实进行变量选择的,有考虑变量之间的条件独立性进行选择的,还有在贝页斯的情况下进行选择的变量选择在最初由于计算量大的原因,

5、发展受到了限制,在上世纪,随着计算机的发展,人们可以进行的计算量也越来越大,所以变量选择也得到了很大的发展。在现实生活中,采集数据的时候,有可能出现数据缺失,我们考虑因变量缺失的时候,但这是我们却可以知道其自变量,如果将这组缺失数据丢掉,将会丢掉~部分信息,特别是当数据量比较少的情况下,这种情况更为严重,为了不丢掉这部分信息,我们有必要对这部分缺失数据进行补值,尽量最低程度地丢失信息。这时我们将用选出的几个自变量用预测的方式对缺失数据进行补值,由于我们已经知道变量选择可以降低预测方差,而且我们用的是最重要的变量进行补值,所以我们可以认为我们的补值是比较精确的。本文在第一

6、节中,叙述了一些变量选择的方法,其中即有基于残差平方和的几种方法,还有经典的AIC准则和BIC准则,还有近年出现的Lasso方法fTibshiranietd.f1996))和Leastangleregression方法(Efronetd.(2004)),并讨论了它们的优缺点。在第二节中,我们提出了解决蝙蝠这组数据的方法,一般的说,就是线性模型中含缺失数据的变量选择的问题,这个方法是由Leastangleregression和BIC准则共同组成的,我们通过Leastangleregression对变量进行排序,用BIC准则对排序后的变量选定最优子集。在第三节中,我们对这种

7、方法进行了模拟,考虑这个方法是否稳定以及计算量的大小,并且对结果东北师范大学硕士学位论文进行了讨论。对每一组系数进行模拟,考察以下在系数成倍得变化下,模拟的结果会有什么变化,在考察在同一组系数下,样本数得变化对结果会有什么影响,再考察在不同的系数下,模拟得结果会有什么不同,并将所有模拟情况汇集成为一个表格,最后在综合分析以下所得到的结果。在第四节中,我们将解决蝙蝠这组数据。2东北师范大学硕士学位论文§1几种不同的变量选择方法考虑了下面的线性模型Y=X8七£其中y是反应变量,x是设计阵,卢是参数向量,£是随机误差并服从均值为零,方差阵为已知

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。