欢迎来到天天文库
浏览记录
ID:57838777
大小:26.27 KB
页数:4页
时间:2020-03-31
《CPDA考试 移动客户细分聚类.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一、假如你是某移动运营商的数据分析师,结合用户通话行为数据,通过数据分析为用户推荐相应套餐或者结合用户现有套餐优化套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。运营商收集到的数据包含下列字段;变量名称变量标签Customer_ID用户编号Peak_mins工作日上班时间电话时长OffPeak_mins工作日下班时间电话时长Weekend_mins周末电话时长International_mins国际电话时长Total_mins总通话时长average_mins平均每次通话时长根据客户行为数据,进行数据的预处理(可以自行根据现有变量构造新变量进行分析),预处理之
2、后选择适合变量进行分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进行细分,并为运营商提供客户精准营销的相关建议。(请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议)。K-Means据类的步骤:1.确定所有聚类变量(聚类因子);2.数据预处理(分类变量数值化、处理缺失值、分析是否存在共线性等,若只有两个变量共线则用比值法,较多变量共线用主成分分析进行降维);3.确定聚类个数并用处理后的聚类因子进行聚类分析(若未说明则需要尝试不同的聚类个数[3,4,5,6,7],从中选择平均轮廓系数较大且结果易于分析解释的模型);4.分析聚类效果和聚类结果(类中
3、心点和每个类等);5.结合实际情况分析每类的意义等。(聚类分析处理共线性时不能直接删除,可用比值替代或主成分分析等来消除共线性)案例分析:观察数据类型,检查数据是否具有缺失值。数据类型为数值型,原始数据没有缺失值。我们把数据导入DATAHOOP平台,在展示分析中进行异常值分析。分析结果如下表: Peak_minsOffPeak_minsWeekend_mins上四分位1382.1426.82574.875中间值1030.2274.0544.4下四分位700.2154.42525.05异常值个数655 International_minsTotal_minsaverage_
4、mins上四分位389.031781.34.2075中间值294.0751370.852.73下四分位221.22751094.9252.1异常值个数131136由上面可以得到异常值的个最多的具有36个,在数据总体样本中占比比较大。所以不处理异常值,这些异常值有可能是数据中一些特殊的类。进行相关系数矩阵分析,分析得到的相关系数矩阵如下: Peak_minsOffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_minsPeak_mins10.1210.14480.69150.9415-0.0367OffPea
5、k_mins0.12110.02470.2620.44250.0094Weekend_mins0.14480.024710.12820.2006-0.1066International_mins0.69150.2620.128210.7123-0.034Total_mins0.94150.44250.20060.71231-0.0364average_mins-0.03670.0094-0.1066-0.034-0.03641观察相关系数矩阵中有一个相关系数为0.9415,该系数比较大。所以我们要处理,我们用比值替换法(把两个变量做比,得到的比值替换其中的一个变量)。我们
6、在数据中重新插入一列为Peak_minsTotal_mins得到他们的变量比值,替换Peak_mins变量。得到新的变量,我们把新的数据导入DATAHOOP中求出相关系数矩阵: OffPeak_minsWeekend_minsInternational_minsTotal_minsaverage_minsPeak_mins/Total_minsOffPeak_mins10.02470.2620.44250.0094-0.4771Weekend_mins0.024710.12820.2006-0.10660.0079International_mins0.2620.1282
7、10.7123-0.0340.3939Total_mins0.44250.20060.71231-0.03640.4492average_mins0.0094-0.1066-0.034-0.036410.0116Peak_mins/Total_mins-0.47710.00790.39390.44920.01161得到的相关系数矩阵中的相关系数没有大于0.85,所以解决了共线性。我们可以直接进行K-Means聚类。聚类的参数在有聚类的个数为5,进行标准化,初始中心点选择的次数要大,最大迭代次数也要大。然后进行K-Means聚类
此文档下载收益归作者所有