spss数据挖掘方法概述

spss数据挖掘方法概述

ID:18414945

大小:716.50 KB

页数:28页

时间:2018-09-17

spss数据挖掘方法概述_第1页
spss数据挖掘方法概述_第2页
spss数据挖掘方法概述_第3页
spss数据挖掘方法概述_第4页
spss数据挖掘方法概述_第5页
资源描述:

《spss数据挖掘方法概述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘方法概述一、主要概念1二、主要方法概述11、神经网络方法概述12、聚类方法概述93、主成分分析144、决策树概述175、关联分析216、遗传算法概述23一、主要概念1、数据挖掘(datamining,简记DM):采取专门算法对数据库中潜在的、不明显的数据关系进行分析与建模。2、CRISP-DM(CRoss-IndustryStandardProcessforDataMining):各企业中被广泛采用的数据挖掘标准流程。包括6个步骤:商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。3、Clementine:SPSS公司推出的企业级数据挖掘软件产品,其包括的

2、数据挖掘主要方法为:神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。二、主要方法概述1、神经网络方法概述主要问题:(1)什么是神经网络?(2)神经网络有什么用?(3)如何建立神经网络?(4)如何应用神经网络?(1)人工神经网络“人工神经网络”(ARTIFICIALNEURALNETWORK,简称A.N.N.)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。神经网络在一定学习规则下,对提供的学习样本进行学习,从中获取特征信息,并存储(记忆)在相应的权值及参数上。学习后,对于新的输入数据,网络可通过已获取的权值及参数,计算网络的输出。神经网络具有高度的

3、非线性、容错性与自学习、自适应更新等功能,能够进行复杂的逻辑操作和非线性关系实现。目前神经网络模型在辅助管理与决策中,应用广泛。(2)神经网络的作用已证明结论:对于函数,在满足一定条件下,可以找到函数27和实常数和,构造函数:使对于任意小的,满足(3)简单神经网络模型(感知机模型)的建立问题引入:设想对购买手机的顾客制定销售方案,用购买量与购买频率两个指标来判别,即:购买量大,购买频率大,则给予优惠折扣;购买量大,购买频率小,则给予优惠折扣;购买量小,购买频率大,则给予优惠折扣;购买量小,购买频率小,则不给予优惠折扣问题:这样的销售方案判别是否可以建立模型表示?设想:分别对

4、购买量、购买频率以及是否优惠的两种取值定义为1,0,则上述四种方案可以用四个样本表示,设每一样本具有两个评价指标X1,X2,一个评价结果Y:样本号X1,X2Y1111210130114000构造两个输入节点、一个输出节点、二层结构的神经网络模型:(*)O1=f(xj取值1或0,w1j(j=1,2)待求作用函数:f(x)=1x>00x≤0结构:X1○W11X1○YX2○W12X2学习样本:(x1(k),x2(k),Y1(k)),k是样本数,k=1,2,3,427关键问题:如何获取模型(*)中的权数w1j,使计算结果与样本的评价结果的误差最小?计算w1j方法:随机赋予w1j初始

5、值,通过对每一样本的学习,获取计算结果与样本评价结果的误差,修正w1j的取值,使经过一定次数的学习后,总误差能达到期望值,此时修正得到的w1j就是所要获取的权数,即设δ(k)=∣Yk-Ok∣,Yk是第k个样本评价结果(称期望输出或实际输出),Ok是计算结果。通过第k个样本的输出误差修正权数的公式为:(k+1)=(k)+△(k),△=αδ(k)Xj其中,α>0,α称收敛因子。第k个样本的误差为:误差ek=

6、δ(k)

7、,总误差E(k)=E(k-1)+ek计算过程:1)设α=1,随机赋予w1j的初始值为0,即w11(k=1)=0,w12(k=1)=02)对第一个样本进行学习:把X

8、1=1,X2=1代入(*),有O=f(w11×X1+w12×X2)=f(0×1+0×1)=f(0)=0δ(k=1)=∣Yk-Ok∣=1修正权数:△w1j=αδ(k)Xj△=δ(k=1)X1=1×1=1△w12=δ(k=1)X2=1×1=1(k=2)=(k=1)+△=0+1=1,w12(k=2)=w12(k=1)+△w12=0+1=1总误差E(K=1)=E(K=0)+ek=0+δ(k=1)=13)对第2个样本:X1=1,X2=0,O=f(1×1+1×0)=f(1)=1δ(k=2)=∣Yk-Ok∣=0修正权数:△w1j=αδ(k)Xj△=δ(k=2)X1=0×1=0△w12=δ

9、(k=2)X2=0×0=0(k=2)=(k=1)+△=1+0=1,w12(k=2)=w12(k=1)+△w12=1+0=1总误差E(K=2)=E(K=1)+ek=1+δ(k=2)=1274)对于获取的权数=1,w12=1,有对第3个样本:X1=0,X2=1,O=f(1×0+1×1)=f(1)=1=Y对第4个样本:X1=0,X2=0,O=f(1×0+1×0)=f(0)=0=Y5)结论:=1,w12=1是使计算结果与样本的评价结果误差最小的权数。将=1,w12=代入模型(*),则模型建立完毕。可以利用这个建立的模型,对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。