回归与神经网络.doc

回归与神经网络.doc

ID:55930435

大小:2.58 MB

页数:28页

时间:2020-06-16

回归与神经网络.doc_第1页
回归与神经网络.doc_第2页
回归与神经网络.doc_第3页
回归与神经网络.doc_第4页
回归与神经网络.doc_第5页
资源描述:

《回归与神经网络.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、回归和神经网络分析目标零售行业拥有大量消费者特征和行为数据,通过对数据进行探索挖掘得到的信息,可以帮助企业针对特定的客户进行营销,用最少的成本取得最佳的收益。分类决策树模型是一种对实例进行分类的树形结构。决策树学习算法包含特征选择、决策树的生成与剪枝过程。开始时,构建根节点,选择最优特征,该特征有几种值就分割为几个子集,每个子集分别递归调用此方法,返回节点,返回的节点就是上一层的子节点。直到数据集为空,或者数据集只有一维特征为止。logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。神经网络

2、是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。本文旨在通过建立决策树模型、逻辑回归模型、神经网络模型对企业的Organics数据进行分析,通过划分训练集和验证集判断模型拟合优劣,最终选择最优模型来得到购买Organics的消费者的特征,从而为企业提供精准营销的客户。数据情况1.添加数据源我们发现AGEGRP1与AGEGRP2与Age内容相似,只是用不同形式表示年龄,因此选择拒绝这两组变量;同时,NumberofOrganicProductsPurc

3、hased代表购买的有机产品的数量,而我们分析的目的是对消费者是否购买有机产品进行预测,因此该变量相关性较弱,可以拒绝;最后,我们将OrganicsPurchased?设为目标变量进行分析。2.数据集右键探索28从图中可以看到,该数据集共有18个变量,22223个观测。从样本统计量中可以看到,大部分变量缺失值都比较严重,后面应该进行相应的补缺处理。上图显示了数据集的前面15条数据。28从所有变量的频数统计图中可以看到,除了已经拒绝的变量,其余大部分呈现正态分布,只有变量BILL和LITME变量呈现偏态分布,因此后期数据预处理时应该对这两个变量进行转化处理。3.统

4、计探索从目标变量的频数分布图可以看到购买人数占比大概是25%,而不购买的人数占比大概是75%,说明我们的样本还是有意义的。数据预处理1.数据分区设置训练集比例70%,验证集比例30%。经过上次决策树实验得出70%&30%比例较好,因此本次建模直接这样分区。分区结果如上2.转换变量28根据以上数据探索分析,将BILL变量转换为对数,将LTIME变量转换为对数。转换结果如上,将BILL和LTIME变量转换为对数。3.替换变量分类变量TV_REG明显有多个重复情况,但是用不同名称表示,因此我们将部分变量值进行替换,将数据规约成较为简洁的结果。4.补缺28模型建立所有模

5、型的流程图如下:28模型一:默认回归查看-结果28从结果看,默认回归模型选择的变量太多,并且将P值较大的变量也选入了模型中,这种模型并不能很好地反映出现实情况,因此我们将改进算法,设置回归属性参数,从而得出更好的回归模型。模型二:逐步回归查看-结果设IMP_GENDER_F为X1,IMP_GENDER_M为X2,IMP_REP_AFFL为X3,IMP_REP_AGE为X4则logistic方程如下:28模型三:自动神经查看-权重(最终)神经网络图如下:2828模型四:自动神经(4)选择只用Tanh激活函数由图中可以看到,模型选择了第1步迭代的结果28模型五:神经

6、网络由图中可以看到,模型迭代了18步,已经在现有的条件下满足停止条件。28由图中可以看到,模型选择了第6步迭代的结果28模型六:神经网络(2)在网络中设置隐藏单元数为13,在优化中设置最大迭代次数为200(尝试过几次,发现一共需要迭代189次才能满足停止条件),并且将模型选择准则改为“误分类率”。28模型结果由图中可以看到,模型迭代了189步,已经在现有的条件下满足停止条件。查看-迭代图-误分类率由图中可以看到,模型选择了第27步迭代的结果查看-模型-权重(最终)28模型七:默认回归-神经网络(3)由图中可以看到,模型迭代了17步,已经在现有的条件下满足停止条件

7、。查看-迭代图-误分类率由图中可以看到,模型选择了第1步迭代的结果查看-权重(最终)28模型八:默认回归-自动神经(2)由图中可以看到,模型选择了第5步迭代的结果28模型九:逐步回归-神经网络(4)本模型的神经网络参数和前面神经网络(2)的设置保持一致查看-迭代图-误分类率由图中可以看到,模型选择了第1步迭代的结果查看-权重28神经网络图如下:2828模型十:逐步回归-自动神经(3)查看-迭代图-误分类率由图中可以看到,模型选择了第18步迭代的结果查看-权重分析结果1.训练集和验证集的ROC曲线如下:282.拟合统计量如下2828从拟合统计量中,我们可以看到模型

8、比较中的选择准则是验证数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。