sta333 第25和26章翻译-统计1107班-曹佳星

sta333 第25和26章翻译-统计1107班-曹佳星

ID:22860333

大小:448.05 KB

页数:15页

时间:2018-11-01

sta333 第25和26章翻译-统计1107班-曹佳星_第1页
sta333 第25和26章翻译-统计1107班-曹佳星_第2页
sta333 第25和26章翻译-统计1107班-曹佳星_第3页
sta333 第25和26章翻译-统计1107班-曹佳星_第4页
sta333 第25和26章翻译-统计1107班-曹佳星_第5页
资源描述:

《sta333 第25和26章翻译-统计1107班-曹佳星》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、STA333第25章回归和分类树(第1部分)25.1说明当我们运用回归分析时,其中一个主要目的是决定因变量Y与自变量X存在什么样的关系.然而在练习中,我们并不局限于只是考虑一个自变量:通过使用许多自变量(X1,X2,…,Xk)去确定因变量Y的价值的概念在数据分析中广泛的运用。举个例子,考虑下列情形:•你患上心脏病的风险也许同时受很多潜在因素的影响:你的体重,你是否有心脏病的家族遗传史,是否有糖尿病,运动的时间,你的血压,等等.•汽车的汽油英里数受到很多方面的影响:汽车的重量,发动机有多少气缸,汽车外形是否符合空气动力学,等等

2、.•一个邮件过滤器能识别出一封收到的邮件是否是垃圾邮件也许与许多潜在因素有关:例如.主要信件的文字总长,金钱这个词在信件中出现的频率,在信件中出现“XXX”的特征,等等.在实际中,标准数据分析工具用于这样的问题就是多元回归.在多元回归中,我们试图运用一些规定的数学函数将因变量Y与自变量联系起来。Y=0+1X1+2X2+…+kXk+被估计的参数β和过去经常发生预测的Y并且去决定哪一个变量对Y最具影响.明显地,这是一种参数方法推理关于Y取决于参数β的估计值和回归误差的假定。描述潜在自变量如何影响因变量的另一种方法是为了

3、全面地辨别Y的值而考虑用关于X的值划定最后界限。举个例子,假定心脏收缩的血压水平“划定最后界限”为144将比我们划定其他心脏收缩的血压水平界限更好的去分一个人是否患有心脏病。事实上,划分取样分为两组:•心脏收缩的血压水平≤144.•心脏收缩的血压水平>144.在每个组内,心脏病流行依据有最全面的相似点,但是组间却有最全面的不同点。换句话说,我们选择自变量X的分裂点以便使因变量Y的值在每个组内尽可能的同质并且在组织间尽可能的不同。没有理由就只分裂一次,如果要最大限度的决定Y我们可以在自变量的很多部分进行分裂。举个例子,我们可以

4、得到两个以上的基于血压水平的组。更普遍的,我们可以在几个不同的自变量同时执行分裂。这种处理方式称作递归的分区,并且这是在数据挖掘技术中经常使用的主要统计工具。23725.2什么是数据挖掘技术?也许在这一点上,简单介绍一下“数据挖掘技术”是必要的。数据挖掘技术是一种处理方法可以分析得自不同观点的数据并且汇总出有用信息比如可以提高税收,降低成本等。技术上而言,数据挖掘技术是一种在大有关联的数据库中从许多变量中寻找一种模式或结构的处理方法。例如:YourKrogerPluscard.位于美国中西部的连锁店Kroger使用数据挖掘

5、技术来分析当地人的购买模式。他们在你刷你的KrogerPlus卡时收集数据.它是如何工作的?通过数据挖掘技术假定消费者们的购物模式,他们发现在周四和周六男人购买尿布时,他们通常会购买啤酒。让我们进一步来分析这个现象发现这些消费者在每周六购买他们的所需品非常有代表性。然而在周四,他们只购买一点儿商品。Kroger决定他们可以为即将当来的周末买啤酒。连锁店可以利用这个信息在个方便提高收益。举个例子,他们可以把啤酒显示接近尿布显示。或者,他们可在周四确定啤酒和尿布是全价。你将得到下表。数据挖掘技术有五步构成:•从数据“wareho

6、use”中提取并装载数据(例如:购买交易)。•在多维数据库系统中储存并控制数据。•向商业分析师和IT专业人员提供数据。•用软件分析数据。•在应用格式中呈现分析结果,例如图形或表格形式。许多类型的数据挖掘分析是可能的,但是我们将要谈论的一个(暂时地!)称为决策树。树状结构代表一套决策,并且这些决策生成数据及的分类规则。发展中的决策树的非参数统计方法就是分类和回归树(CART)。这些规定了一系列的规则以至于你可以适应于新的数据集去预测将要得到的结果。这些“规则”通过寻找最佳的数据“溢出点”被开发,这就是递归分区发挥作用的过程。2

7、3825.3递归分区101递归分区的背后想法是去重复的选择最优作用的预测变量并且用它来对数据分层。每层里,我们选择数据中最有作用的自变量和子分层直到这个层非常小我们已经将数据用完为止。这些的结果就是决策树。如果因变量Y是一个类别变量(e.g.你是否患有心脏病?),这个决策树也可以叫做分类树.如果Y是一个连续数变量(e.g.考虑到汽车的油耗是多少?),又可以叫做回归树。故意地,每层种的因变量都尽可能的相似。递归分区在给数据提供模型或者制定详细的预测方面并不是特别的好,这个数据挖掘技术程序的有效性是不但找到数据的主要分部而且是最

8、有作用的预测变量。首先,让我们重游(再一次)这个musclemass数据。这是一个只有一个自变量的小数据集,但是我们可以用它作为基础例子来介绍发生了什么。例:肌肉质量.探究女人肌肉质量和年龄之间的关系,一个营养学家随机的挑选15个女人从40岁到79岁每10岁为一组。数据集中的变量是质量和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。