欢迎来到天天文库
浏览记录
ID:50217603
大小:776.25 KB
页数:9页
时间:2020-03-09
《用户流失预警模型及其应用_第五组.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、商务数据分析第五小组用户流失预警模型及其应用一、背景介绍假定一个顾客3个月不来购物,可以认为此顾客已经流失。需根据2013年10月至2014年9月的超市顾客购物历史数据建立模型,预测哪些会员将在2014年9月之后流失(即在2014年10月至12月不来购物)。同时识别这些即将流失的人群有什么特征,可以作为精细化运营的设计抓手。二、数据描述训练数据为13年10月至2014年9月,共1000个客户一年内的购物历史数据,总共有77899条记录,包含用户的购买时间、购买类目、购买金额及是否流失信息。三、问题提出1.如何依据历史用户购买行为判断用户流失概率,从而采取挽回措施?2.如何将流失模型中建立的用户
2、标签,应用于精细化运营?四、方案思路a.理论依据成熟的用户流失预警模型有RFM模型,可将RFM模型应用于该场景,并基于RFM基础变量探索其他变量优化该模型。b.构建思路◼Step1:现有样本数据剔除异常值;◼Step2:对现有样本数据构建最近消费距离、消费频次、消费金额三个变量,探索其他新增变量;◼Step3:连续变量采用分箱操作分段映射,名义变量分群映射;◼Step4:计算每个变量的W0E值,选择单个有效变量;◼Step5:神经网络/Logistics回归两种建立模型选择变量;◼Step6:训练集、测试集分别查看模型表现,选择最佳模型以及相应参数数据集。c.应用场景应用一:流失预警模型可用于
3、计算每个用户的流失概率,概率值特别高的用户(比如大于80%)不用做任何挽回手段,因为挽回成本高并且效果不好;流失概率值特别低的用户(比如小于20%)也不用做任何挽回手段,因为即使不做任何措施回购率也比较高;重点需要采取运营手段的为中间层用户(流失概率介于20%-80%)。应用二:模型过程中构建的变量,可用作用户细分,投放专门的运营策略。比如依据频次、金额、最近时间,对用户进行分组(重要保持客户、重要发展客户、一般重要客户等),针对不同等级用户,采取不同的管理策略。五、方案实施(一)数据预处理商务数据分析第五小组1.空值处理:样本无空值;2.极值处理:购物金额最高的3个用户购物频次最高的3个用户
4、(二)变量构建及构建理由:1.最近一次消费(RFM模型中的R)理由:最近一次消费是指上一次购买距离现在的时间。上一次消费时间越近的用户理论上应该是比较好的用户,对于提供的商品或服务会有迅速反应,很久没来的用户大概率会流失。下图未流失及流失用户的分布情况同样可以印证。商务数据分析第五小组2.消费金额(RFM模型中的M)理由:这里的消费金额是指顾客在一年内购买的总金额。累计消费金额可以反应用户整体依赖性。分人群表现如下:备注:此处已剔除极值3.消费频次(RFM模型中的F)理由:这里的消费频次是指顾客在一年内所购买的次数。最常购买的顾客,也是满意度最高的顾客,一般而言忠诚度较高,因而可以作为判断是否
5、会流失的重要变量。分人群的表现如下图:备注:此处已剔除极值4.第一次购买与最近一次购买之间的时长(RFM基础上新增变量)理由:时间跨度久的用户,一般而言更加忠诚、稳定,并且从另一方面也说明用户对超市依赖程度高,流失的概率也越低。分人群的表现如下图:商务数据分析第五小组5.购买类目数量(RFM基础上新增变量)理由:总的购买类目种类越多,说明需求比较杂,相对更稳定。分人群的表现如下:(三)特征变量筛选1.(二)中构建的5个变量结果如下:2.以上五个变量均为连续变量,构建后的五个变量分别对应为amount、category、frequency、time_long、recency应用分箱操作实现分段。
6、分段结果如下:◼Amount(sum(sum(amount))):[-183.08][183.08-436.85][436.85-932.86][932.86-2095.31][2095.31-]◼Category(count(category)):[-7.5][7.5-15.5][15.5-26.5][26.5-42.5][42.5-]◼Frequency(count(datetime)):[-2.5][2.5-4.5][4.5-9.5][9.5-20.5][20.5-]◼Time_long:[-3.5][3.5-99.5][99.5-241.5][241.5-328.5][328.5-]◼
7、Recency(time_near):[-9.5][9.5-24.5][24.5-95][95-243.5][243.5-]3.计算单个变量的WOE值商务数据分析第五小组使用IV大小来判断变量是否有预测性:当IV<0.2时排除该变量,0.21时有强预测性。初步可以判定以上五个变量分别均有相应分段值具备预测性。(四)模型建立及预测1.神经网络➢因变量:loss,自变量
此文档下载收益归作者所有