欢迎来到天天文库
浏览记录
ID:32745490
大小:359.00 KB
页数:6页
时间:2019-02-15
《面对海量数据,你应该选择哪种数据分析方法.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、面对海量数据,你应该选择哪种数据分析方法?如题,您是如何开展的呢?您会选择什么样的数据分析方法呢?您是否看着数据感到迷茫,无所适从。看完此篇,相信您会得到帮助。两大层面决定您应该怎么开始。 1.抓住业务问题不放松。您费大力气收集数据的动机是什么?你想解决什么问题?这是核心,是方向。这是业务把握层面。2.全面理解数据。哪些变量,什么类型?适合或者可以用什么统计方法。这是关键,这是数据分析技术层面。 关于业务目的,目标,要解决的问题本篇暂放在一边,但业务问题是最基本的问题,这一点一定要交代清楚。本篇主要涉及数据分析的技术层面。 数据分析技术层面须把握三大
2、关键:变量、数据分析方法、变量和方法的关联 ·认识变量: ·认识数据分析方法:对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必须考虑许多因素,主要有: (1)统计分析的目的, (2)所用变量的特征, (3)对变量所作的假定, (4)数据的收集方法(即抽样过程)。 选择统计分析方法时一般考虑前两个因素就足够了。 ·将变量与分析方法关联 推荐阅读1:人大经济论坛帖子 【1】变量之间的关联性分析 1、两个变量均为连续型变量·
3、小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析·大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析2、两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析3、一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析 【2】回归分析 1、直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。2、多重线性回归:应变量(Y)为连续
4、型变量(即计量资料),自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。·观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素·实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3、二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。·非配对的情况:用非条件Logistic回归
5、 (1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素 (2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用·配对的情况:用条件Logistic回归 (1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素 (2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4、有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,X
6、p)可以为连续型变量、有序分类变量或二分类变量。·观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素·实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用5、无序多分类有序的Logistic回归:应变量为无序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。·观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素·实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
7、 推荐阅读2:本篇资料主要参考自《实用现代统计分析方法及SPSS应用》,最终编辑:数据小兵
此文档下载收益归作者所有