逻辑回归及其在数据挖掘中的应用.pdf

逻辑回归及其在数据挖掘中的应用.pdf

ID:48003018

大小:1.81 MB

页数:37页

时间:2020-01-11

逻辑回归及其在数据挖掘中的应用.pdf_第1页
逻辑回归及其在数据挖掘中的应用.pdf_第2页
逻辑回归及其在数据挖掘中的应用.pdf_第3页
逻辑回归及其在数据挖掘中的应用.pdf_第4页
逻辑回归及其在数据挖掘中的应用.pdf_第5页
资源描述:

《逻辑回归及其在数据挖掘中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、揭开逻辑回归面纱你听过吗?逻辑回归你用过吗?最高频公司建模项目大部分使用逻辑回归你熟悉吗?外形如何?—算法应用内在如何?—算法原理最熟悉的陌生人想让常用=熟悉吗?揭开逻辑面纱感受回归玄妙AGENDA1算法介绍2TWM建模3算法应用4讨论互动什么是逻辑回归?头发短发boy爱好玩游戏or?穿着中性girl职业数据挖掘预测分类变量发生N个影响因素的概率逻辑回归为何“逻辑”?影响因素目标变量发生的概率,,…,对应的回归系数=+++…+共同作用下的影响力1∈(−∞,+∞)=1+Logit变换将目标值转换至(0,1

2、)之间∈(0,1)=ln()=z/1−表示发生比1−逻辑回归怎么“回归”?预测值真实值真实值1预测值0最小二乘法最大似然估计误差最小逻辑回归怎么“回归”?单个样本预测值与真实值一致概率=1−()真实值与预测值一致的概率=所有样本一致概1率都尽可能大同时发生的=()概率最大似然函数求解0真实值与预测值一致的概率=1−1)两边取对数降幂2)对求偏导=0多元线性方程组3)利用牛顿迭代法求解小示例X1X2X3Y样本头发是否爱好游戏穿着是否男性秦一1121黄二2011刘三3030李四1011王五3120郝六212

3、?预测值与真实值一致概率1男性概率=1+(∗∗∗)……1−1=1+(∗∗∗)1−小示例所有样本预测值与真实值一致概率尽量最大××(1−)××(1−)最大11××(1−)1+(∗∗∗)1+(∗∗∗)取自然对数,求偏导=0,迭代求解=0.345,=−0.486,=0.593,=−0.663郝六为男的概率值==0.564(..∗.∗.∗)析变量—你处理恰当吗?提倡二分变量变量与目标单调变量间独立变要1变量A变量B量求0变量变换规则变换后变量变量加工厂是否集团客户多是否,少数值无变换变量1:是否全球通N个类别的

4、变量转n-1个哑变品牌变量2:是否动感地带量神州行作为参照方法1:可剔除与因变量关系较小通话次数的变量交互作用变量,剔除之一或者方法2:衍生变量“通话次数*通衍生变量通话时长话时长”理变量—宽表变量怎么梳理?山不在高,有仙则灵变量不在多,关键就行选变量—不同选法有什么不同?none所有变量入选不建议前进法一个个选进来变量不相关后退法一个个踢出去逐步回归法边拿进来,边踢出去P值才是硬道理—P值越小越显著模型检验模型拟合优度•AIC•SC•似然比检验变量显著性•Wald检验•T检验•SCORE检验说的就是统

5、计量回顾一下流程个自变量预测因变量=1的概率最大似然估计析变量求出回归系数模型检验理变量选变量逻辑变换1=1+分类如何选择?常用神经网络逻辑回归决策树判别分析1、整套流程比较完善1、变量的处理灵活,不要2、结果易理解、易解释求相互独立2、可处理带拐点变量逻辑回归决策树AGENDA1算法介绍2TWM建模3算法应用4讨论互动宽表如何建?训练集正样本宽表一统计宽表1:n混合负样本(全量客户)测试集宽表二打分集宽表三TWM跑数—新建分析1)连数据源2)新建工程3)新建分析4)选择类型TWM跑数—连宽表1)选择数

6、据库3)选择目标变量2)选择宽表4)选择影响变量TWM跑数—参数设置1)最大迭代次数2)变量筛选方法你碰到过这种问题吗?为什么工程无法保存?为什么老是spool空间不足?为什么同时跑两个就出问题?报错!还是报错!概率计算为什么是这样?1)Pz2)=3)不一定是0.5为界4)是回归系数,非标准化系数5)变量不能有空值,否则整条记录删除模型效果如何?—三个关键值命中正样本数命中正样本数查全率=查准率=所有的正样本数判定为1的总客户数查准率提升率=自然占比实际男非男预测查全率=4/(4+2)=67%男415查

7、准率=4/(4+1)=80%提升率=80%/60%=1.3非男236细读三个关键值查全率如果提升率达到40了,模型效果够好吧?提升率查准率样本比例是关键,排名X%是前提模型效果如何?—两项系数权重如此大,合理吗?StandardizBStandardWaldedColumnNameCoefficientErrorStatisticTStatisticP-ValueOddsRatioLowerUpperPartialRCoefficient(Constant)-3.22060.0076179100.94-

8、423.20320N/AN/AN/AN/AN/A是否沉默客户0.90960.008611130.429105.500802.48342.44182.52570.06163.8764ARPU下降幅度0.0137096014.776309.862501.01381.01371.01390.18090.3641是否全球通0.004019847.276140.880401.0041.00391.0040.08230.3074是否神州行0.14260

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。