统计建模与数据分析

统计建模与数据分析

ID:37547307

大小:325.31 KB

页数:26页

时间:2019-05-12

统计建模与数据分析_第1页
统计建模与数据分析_第2页
统计建模与数据分析_第3页
统计建模与数据分析_第4页
统计建模与数据分析_第5页
资源描述:

《统计建模与数据分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、统计建模与数据分析主讲人:李婷婷西南大学数学与统计学院参考书籍:《复杂数据统计方法——基于R的应用》,吴喜之编著,中国人民大学出版社主要内容引言横截面数据:因变量为实数轴上的数量变量横截面数据:因变量为分类变量及因变量为计数变量的情况纵向数据(多水平数据、面板数据)多元分析(不分因变量和自变量)路径建模(结构方程建模)数据的PLS分析多元时间序列数据引言统计是科学统计是科学?科学的基本特征是其方法论:对世界的认识源于观测或实验的信息(或者数据),总结信息时会形成模型(亦称为假说或理论),模型会指导进一步的探索,直到遇到这些模型无法解释的现象,这就导致对这些模型的更新

2、和替代.统计可以定义为``收集、分析、展示和解释数据的科学,或者称为数据科学(scienceofdata).统计应用于几乎所有领域.统计与数学、计算机的关系统计的思维方式是归纳(induction),也就是从数据所反映的现实得到稍微一般的模型,希望以此解释数据所代表的那部分世界.这和以演绎(deduction)为主的数学思维方式相反,演绎则是在一些人为的假定(比如一个公理系统)之下,推导出各种结论.在统计发展的前期,没有计算机,只能在对数据加上一些数学假定后,建立一些假定的数学模型,推导出结果的性质,诸如置信区间,假设检验的p值,相合性等等.在数据分布与假定的正态分

3、布相差甚远的情况,人们又利用诸如中心极限定理或大样本定理得到渐近正态的结果.据此又得到大样本时的各种性质,包括置信区间或置信带,p值,相合性等等.统计的这种发展方式,给统计打上了很深的数学烙印.在现成的数学模型无法处理大量的复杂数据的情况下,计算机领域的研究人员和部分概率论及统计学家开发了许多计算方法,处理了传统统计无法解决的大量问题。诸如人工神经网络、决策树、boosting、随机森林、支持向量机等大量算法模型。统计研究逐步由数据或者问题驱动,创造模型的目的是适应现实数据。随着时代的前进,院系现在也出现了诸如数据挖掘、机器学习等课程,统计杂志也开始逐渐重视这些研究

4、.这些算法模型大都不是用封闭的数学公式来描述,而是体现在计算机算法或程序上.参考书籍:TheElementsofStatisticalLearning:DataMining,Inference,andPrediction.SecondEdition.TrevorHastie,RobertTibshirani,JeromeFriedman,Springer学术期刊Top期刊TheAnnalsofStatistics.JournaloftheRoyalStatisticalSociety,SeriesB.JournaloftheAmericanStatisticalAs

5、sociation.Biometrika.JournalofMachineLearningResearchEconometrikaBiostatistics文献检索文献检索的一点经验Nosweat,Nosweet.数据分析的实践数据收集.首先要根据实际目的.有数据不一定能够得到需要的结论,我们需要的是与所关心问题充分有关的变量的数据.数据预处理.缺失值寻找适合的模型:为了寻找模型,首先要对数据进行探索性分析,利用图形、各种统计量、或者比较复杂的探索方法来查看数据的关联性、线性性、异方差性、多重共线性、聚类特征、分布形状等。有了对数据的粗略认识之后,就寻找合适的模型。

6、数据分析的实践比较模型的标准.传统统计中:各种判别准则(各种检验、一些统计量的临界值等等).都是在对数据分布及描述变量之间关系的模型所做的假定之下得到的.在使用算法模型时,由于没有传统模型的那些假定,判断模型好坏通常都用交叉验证(crossvalidation)。对结果的解释.选择模型并不是目的,目的是解释模型所产生的结果,而结果必须是应用领域的结果,必须有实际意义.仅仅用统计术语说某个模型较好,某个变量显著之类的话是不够的.R软件入门R软件的安装http://mirrors.ustc.edu.cn/CRAN/最初几步x=1:100#把1,2,...,100个整数向

7、量赋值到xsample(x,20)#从1,...,100中随机不放回地抽取20个值作为样本set.seed(0);sample(1:10,3)#先设随机种子再抽样.z=sample(1:200000,10000)#从1,...,200000中随机不放回地抽取10000个值作为样本z[1:10]#方括号中为向量z的下标y=c(1,3,7,3,4,2)z[y]#以y为下标的z的元素值(z=sample(x,100,rep=T))#从x放回地抽取100个随机样本(z1=unique(z))length(z1)#z中不同的元素个数xz=setdiff(x,z)#x和z之

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。