资源描述:
《基于k―means算法的电子商务客户细分研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于K-mcans算法的电了商务客户细分研究在竟争H益激烈的网络商业时代,电子商务企业越來越强烈的感觉到客户资源是金业获胜的法宝之一。因此企业开始从以产站为中心的模式向以客户为中心的模式转变,主要围绕保留现冇顾客和挖掘潜在顾客展开,预测出客户未来的购买趋势,制定相应的营销策略。但是随着企业产品的个性多样化,客户的需求口益增加,传统的应用统计学的方法对客户进行细分显得力不从心。采用聚类挖掘算法可以处理儿个甚至上冇个变量,通过收集整理客户相关信息,发现存在于客户整休内部具有不同需求特点、购买行为、浏览兴趣等特征的客户群体,分析出具有相似浏览或购买行为的客户群,进而对客户
2、进行细分,帮助电了商务企业深入了解自己的客户,为客户群体提供更加全面的个性化服务,提高客户的满意度和忠诚度,为企业创造更多的价值。二、客户细分相关理论客户细分是20世纪50年代屮期由美国学者温徳尔?史密斯(WendellR.Smith)捉出的,他认为“客户细分是基于某一时期市场中个体需求的不同特点而做出的产品决策,而产品差异策略则仅定位于市场竞争者,不考虑需求的复杂性[1]。"其理论依据在于顾客盂求的异质性和企业需要在有限资源的基础上进行冇效地市场竞争。简单地说,客户细分是指在明确的战略业务模式和特定的市场中,根据客户的属性,行为,需求,偏好以及价值等因素对•客户进
3、行分类,并提供有针对性的产品,服务和销售模式。三、聚类分析聚类(clustering)是一•个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具冇较高的相似度,而不同组内的数据对象则是不相似的。一个聚类(cluster)就是山彼此相似的一组対象所构成的集合,不同聚类中的对象通常是不相似的。相似或不相似的度量是基于数据对彖描述属性的取值来确定的。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域(如商业、地理、保险业、因特网、电子商务),很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡虽:
4、不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的结果不仅可以揭示数据间的内在联系与区别,同时也为进一•步的数据分析与知识发现提供了重要的依据,如数据间的关联规则,分类模式以及数据的变化趋势等。目前在文献屮存在人量的聚类算法,算法的选择取决于数据的类型以及聚类的目的和应用。图1展示了常用聚类算法Z间的层次关系[2]。本文即采用K-means聚类算法。PU、K-means算法(―)K-means算法的基本原理K-means算法是最为经典的基于划分的聚类方法,是十人经典数据挖掘算法之一。给定一个包含门个数据对象的数据库,以及要生成簇的数目k,随机选収k个对象
5、作为初始的k个聚类中心;然后计算剩余各个样木到每一个聚类中心的距离,把该样木归到离它最近的那个聚类屮心所在的类,对调整麻的新类使用平均值的方法计算新的聚类屮心;如果相邻两次的聚类中心没有任何变化,说明样本调整结束且聚类平均误差准则函数已经收敛。本算法在每次迭代中都耍考察每个样本的分类是否止确,若不正确,就要调整。在全部样本调整完成示修改聚类屮心,进入下一次迭代。如果在一次迭代算法屮,所有的样木被正确分类,则不会冇调整,聚类中心不会冇变化。在算法迭代中值在不断减小,最终收敛至一个固定的值。该准则也是衡量算法是否正确的依据Z-。(%1)K-means算法的步骤1.给定一
6、个包含n个数据的数据集D,给定聚类个数k和k个初始聚类屮心Zj(I),j=l,2,...k;2.计算每个数据到聚类中心的距离D(xi,Zj)(I),i=l,2,...k,若满足D(xi,Zk(I))=min{D(xi,Zj(I),j=l,2,3,...n)},xiWwk(3-1)并根据距离最小将每个对象分派到最相近的聚类;3.重新计算每个聚类的均值并确定新的聚类中心;计算谋差平方和准则函数J;5.输出k个聚类集合。五、K-means算法在电子商务客户细分中的应用(%1)K-means算法在客户细分中的步骤通常我们根据电子商务网站中的访客H志或者CRM屮的相关信息,先
7、进行数据预处理,然后建立相关模型,用聚类的方法把客八进行细分,并为企业做出决策提供依据。K-mcans算法应用于客户细分的步骤:1.从电子商务网站获取相关的数据;2.判断所获取的数据是否可以进行分类,如有明显的聚类趋势就进行聚类,否则収消聚类;3.将K-Means算法结合SPSS软件应用与所获取的客户数据集屮,并将客户分为C1、C2、C3......等类。4.根据分类的结果,总结出每一类的规则。5.评价聚类结果。若聚类结果可信,则可应用于实际当中,企业可以据此制定相应的营销策略,如若不可信,则需要重新聚类。(%1)数据获取本文采用的数据来自淘宝网的某服装网店。由