用ibmspssmodeler建立线性回归预测模型

用ibmspssmodeler建立线性回归预测模型

ID:28591567

大小:3.90 MB

页数:87页

时间:2018-12-11

用ibmspssmodeler建立线性回归预测模型_第1页
用ibmspssmodeler建立线性回归预测模型_第2页
用ibmspssmodeler建立线性回归预测模型_第3页
用ibmspssmodeler建立线性回归预测模型_第4页
用ibmspssmodeler建立线性回归预测模型_第5页
资源描述:

《用ibmspssmodeler建立线性回归预测模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、用IBMSPSSModeler建立线性回归预测模型Modeler线性回归模型示例线性回归模型是一种常用的统计学模型。IBMSPSSModeler是一个强大的数据挖掘分析工具,本文将介绍如何用它进行线性回归预测模型的建立和使用。在本文中,将通过建立一个理赔欺诈检测模型的实例来展示如何利用IBMSPSSModeler建立线性回归预测模型以及如何解释及应用该模型。1 评论:廖志刚,软件工程师,IBM陈刚,软件工程师,IBM杨家飞,软件工程师,IBM2011年10月27日·内容简介回归分析(RegressionAnalysis)是一种统计学上对数据进行分析

2、的方法,主要是希望探讨数据之间是否有一种特定关系。线性回归分析是最常见的一种回归分析,它用线性函数来对因变量及自变量进行建模(自变量和因变量都必须是连续型变量),这种方式产生的模型称为线性模型。线性回归模型由于其运算速度快、直观性强以及参数易于确定等特点,在实践中应用最为广泛,也是建立预测模型的重要手段之一。IBMSPSSModeler是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。在后面的文章中,将通过一个理赔欺诈检测的实际商业应用来介绍如何用IBMSPSSModeler建立、分析及应用

3、线性回归分析模型。用线性回归建立理赔欺诈检测模型在本例中,用于建立模型的数据存放在InsClaim.dat中,该文件是一个CSV格式的数据文件,存储了某医院以往医疗保险理赔的历史记录。该文件共有293条记录,每条记录有4个字段,分别是ASG(疾病严重程度)、AGE(年龄)、LOS(住院天数)和CLAIM(索赔数额)。图1显示了该数据的部分内容。图1.历史理赔数据文件任务与计划基于已有的数据,我们的任务主要有如下内容:·建立理赔金额预测模型,该模型将基于病人的疾病严重程度、住院天数及年龄预测其索赔金额。·假设模型匹配良好,分析那些与预测误差较大的病人

4、资料。·通过模型来进行索赔欺诈预测。根据经验及对数据进行的初步分析(这个数据初步分析可以通过IBMSPSSModeler的功能实现,此处不是重点,故不做深入介绍),可以猜测理赔金额与疾病严重程度、住院天数以及年龄存在线性相关关系,因此我们将首先选用线性回归模型进行建模,因此可以得到下面这样一个初步计划:·应用线性回归分析来建立模型。·如果模型匹配度不佳,则可能应用更加复杂的模型,例如神经网络、规则推导等。基于上面的分析,我们容易得到目标模型的因变量为CLAIM,自变量为ASG、AGE和LOS。在建立模型之前,我们可以对该模型进行一些猜测,以下是根据

5、经验能想到的一些假设:·随着住院天数的增加,索赔金额增加·随着疾病严重程度的增加,索赔金额增加·随着年龄的增加,索赔金额增加在建立好模型后,我们会根据模型来验证或推翻这些假设。用IBMSPSSModeler创建stream文件根据任务要求,我们在IBMSPSSModeler中建立如图2所示的stream文件。在该stream中,InsClaim.dat作为数据源节点,它通过一个类型节点(type)进行数据处理后输入到模型节点(CLAIM),在本例中,输出节点(table)作为一个测试节点,可以用于查看类型节点处理后产生的数据。图2.理赔预测模型st

6、ream示例图设置类型(type)节点从前面的分析可见,CLAIM是因变量,在类型节点中须作为目标变量(Target),而其余三个字段(ASG、AGE和LOS)则是自变量,在类型节点中须设置为输入变量(Input)。需要注意的是,在线性回归分析模型中,要求所有变量(包括自变量和因变量)都是连续类型。如果数据中有非数字类型,比如Category或者Flag,则需要预先转换为数字型。图3显示了类型节点设置的具体情况。图3.类型节点设置图模型节点设置在设置好类型节点后,我们可以双击CLAIM节点,对模型节点进行设置。首先设置Model标签页中的选项。从图

7、4可以看到设置的具体信息,ModelName有自动和定制两种类型,在自动方式下,模型名称自动设置为目标变量的名字(CLAIM)。本模型的输入信息并没有分组,因此Usepartitioneddata和Buildmodelforeachsplit的选择与否并无关系。Method选项将选择输入字段的选择方式,由于本例中的输入字段较少,可以使用默认的Enter模式。在字段较多的情况下,可以选择StepWise、Forward和Backward中的一种,它们会采用不同的统计学方式对输入字段进行筛选。Includeconstantinequation选项表示模

8、型中是否包含常量(即截距),在本例中,由于每次理赔会有一个起始额度,因此选中该选项。图4.模型节点的Model页设置图在E

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。