欢迎来到天天文库
浏览记录
ID:11664724
大小:21.49 KB
页数:10页
时间:2018-07-13
《观察数据分析方法简介》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、观察数据分析方法简介戴晓晨华盛顿大学公共卫生学院全球卫生系2016年9月5日提纲?背景回顾(BackgroundReview)?回归模型(RegressionModeling)?倾向评分匹配(PropensityScoreMatching)?工具变量分析(InstrumentalVariable)背景回顾?观察研究(observationalstudy)v.s实验研究(experimentalstudy)?一些例子??自然实验(naturalexperiment)是那种研究??前瞻研究(Prospectivestudy)
2、v.s回顾研究(retrospectivestudy)*本讲座不关注实验设计,只针对几种常见数据分析方法。背景回顾?什么是观察数据(observationaldata)??研究者没有进行任何干预而客观观察到的数据?例子??原始数据(primarydata)v.s二手数据(secondarydata)?e.g.全国卫生服务调查,吸烟问卷调查—————————————————————————————————————————————————————?主题范围:基于(二手)观察数据的回顾性观察研究?e.g.大数据分析因果推断?研
3、究的根本目的:因果推断(causalinference)?因果联系(causation)v.s相关性(correlation/association)?因果联系à相关性?相关性à???因果联系(inference)(8条标准)?Causal??Inference??attempts??to??articulate??theassumptions??needed??to??move??from??conclusionsabout??association??to??conclusions??about??causation
4、?例子:短信干预降低艾滋病母婴传染?因果推断?金标准:?反事实(counterfactualscenario)/潜在结果(potentialoutcome)?需要时光机!?本质:除了干预措施以外所有其他条件完全相同因果推断?现实世界金标准:随机对照实验(RCT)?本质:随机分组导致两组人除了干预措施以外所有其他条件相似?所有条件包括可观察的(observed)和不可观察的(unobserved)?比较两组的平均效果OC————————————————————————————————————————————————————
5、—TextingInfectionUC?观察研究的因果推断:????最大障碍:混杂(confounding)本质:用统计方法使两组人除了干预措施以外的其他可观察的条件相似比较两组中可观察条件相同的人的平均效果,再对这些平均效果取平均缺点:很难解决不可观察因素对效果的混杂(hiddenbias)。回归模型—连续变量?线性回归(linearmodel/??OLS):?因变量:连续变量,(计数变量)?优点:应用非常广泛,简单,系数容易解释,?缺点:5个基本假设限制,因变量偏斜(skewed),异质性方差(导致结果偏倚?Stat
6、a??code:??regressY??X1??X2??X3,??robust???对数线性回归(logOLS):?因变量:连续变量,(计数变量)?优点:适用于因变量偏斜(Skewed)的情况,如医疗费用数据?缺点:系数不易解释,retransformation困难,尤其在有HSK情况HSK)回归模型—二元变量—————————————————————————————————————————————————————?逻辑回归(logisticregression)?因变量:二元变量(Binaryvariable),0到1
7、的连续变量(概率)?隐变量服从逻辑分布?优点:处理二元变量最常用方法,系数经过指数转化可直接解释(OR),预测结果是0,1之间的概率,没有超范围预测?缺点:从log(odds)向概率转化的过程是非线性的,成S型,曲线中间概率变化大,两边变化小?Statacode:??logit??Y??X1??X2…,??or?概率回归(probitregression)?????因变量:二元变量(Binaryvariable),0到1的连续变量隐变量服从正太分布,所以与logistic区别在于linkfunction不同优点:预测结果
8、是0,1之间的概率,没有超范围预测缺点:系数不易解释Stata??code:??probitY??X1??X2…回归模型—二元变量?C-loglog回归:?因变量:二元变量(Binaryvariable),?链接方程:?适用于小概率事件0到1的连续变量(概率)回归模型—计数变量?泊松回归(Poissonregress
此文档下载收益归作者所有