改进k—means聚类算法在客户细分中应用探究

改进k—means聚类算法在客户细分中应用探究

ID:6087655

大小:28.50 KB

页数:7页

时间:2018-01-02

改进k—means聚类算法在客户细分中应用探究_第1页
改进k—means聚类算法在客户细分中应用探究_第2页
改进k—means聚类算法在客户细分中应用探究_第3页
改进k—means聚类算法在客户细分中应用探究_第4页
改进k—means聚类算法在客户细分中应用探究_第5页
资源描述:

《改进k—means聚类算法在客户细分中应用探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、改进k—means聚类算法在客户细分中应用探究  摘要:聚类分析是数据挖掘的一种重要方法,将它应用在客户细分中,可以识别出不同的客户群,从而针对不同的客户群制定相应的营销政策,使企业效益最大化。针对聚类分析中k-means算法的不足,运用改进的聚类算法对旅游业客户进行细分,从而使企业能够更合理地细分、规划客户群组,针对不同需求的客户群体进行区别对待,得到了较好的效果,验证了改进算法的可行性和高效性。关键词:聚类分析;客户细分;数据挖掘;改进的k-means算法;客户群中图分类号:F713.50文献标识码:A文章编号:

2、1007-2101(2014)01-0118-04客户关系管理中的一个重要环节就是客户细分,它也是客户关系管理中的核心概念之一。客户细分是将一个大的客户群或者消费者群体划分成多个细分群体,这些群体中同属于一个细分群体的客户或者消费者的彼此特性相似,而隶属于不同细分群体的客户或者消费者之间是不同的。简而言之,客户细分是根据客户的属性、行为、需求、偏好以及价值等因素划分的客户集合。7在激烈的市场竞争中,客户细分是众多企业识别客户类别、把握客户特征的重要方法。通过客户细分,企业可以更好地识别客户群体,从而达到区别对待有不同

3、需求的客户,采取差异化的营销策略,达到最优化配置客户资源的目的。因此,当今企业如果想在激烈的市场竞争中脱颖而出就应该了解如何对客户群体进行客户细分,从而挖掘出具有消费潜力的客户,并针对这些客户进行合理的资源分配,对不同价值的客户制定出不同的营销策略。一、聚类分析算法目前,有很多种聚类算法可以选择,而究竟选择哪种算法主要取决于数据的类型、聚类的目的及其应用。现今,主要的聚类算法可以划分为以下几类:基于划分的方法、基于网格的方法、基于层次的方法和基于密度的方法等。基于划分的聚类方法为给定数据集合指定合理的划分,每个对象被

4、指定给唯一的簇。簇的个数k是需要用户指定的输入参数。一个好的聚类算法的划分准则是:不同类中的对象之间尽可能的远离或者不同,而同一类中的对象之间尽可能的相近或者相关。7k-means算法是其中最常用的划分方法,它以k为参数,再把n个对象分解成为k个簇,以使簇内具有较高的相似度,簇间具有较低的相似度。而相似度的计算是根据一个簇中对象的平均值来进行的。它的算法步骤为:首先在所有的对象中随机的选取k个对象用作初始的聚类中心;然后根据剩余对象与各个中心点之间的距离,将它们分配到距离最近的簇中;再重新计算一遍新得到的每个簇的均值

5、并将它作为新的聚类中心。重复上述步骤直到准则函数收敛为止。k-means算法的主要优点是算法简洁、快速。它是解决聚类问题的经典算法之一。它在结果簇是密集的,且簇与簇之间区别明显时效果最好。同时对处理较大的数据集时,该算法也是相对高效和可伸缩的。它的时间复杂度是O(nkt),其中n是所有对象的数目,k是簇的数目,t是迭代的次数。但k-means算法同时也具有一定的局限性,主要体现在以下几个方面:1.从样本点的集合中随机选取k个中心,这种选择具有盲目性和随意性,它在很大程度上决定了算法的有效性。这个算法的聚类结果对初值的

6、依赖性很强,初始值一旦选择的不好,可能无法得到有效的聚类结果。所以,这也成为k-means算法的一个核心问题,因此对初始中心的选择进行改进既有意义也有必要。2.聚类中心的调整,这是涉及聚类准确性的关键问题。k-means算法的处理方法是对每一个已有的分类,聚类中心为该类中所含数据点的几何平均值。而平方误差准则函数在各个簇之间区别明显且数据分布稠密时运用起来比较有效;但是如果各簇的形状和大小差别很大,为使函数收敛则可能会将大的聚类簇分割,从而导致聚类结果的不准确。7二、改进的k-means算法三、实例分析本次试验是针对

7、旅游业客户对服务重要性的评价打分进行客户细分,从而将客户细分成几类,针对不同类客户采取不同的决策,最终使企业的效益最大化。1.确定数据挖掘的目标。数据挖掘不能盲目地进行,必须非常明确的定义出业务的问题。因此认清数据挖掘的目的是数据挖掘很重要的一步。本次试验是对旅游业的客户进行分类。2.收集和预处理数据。在数据挖掘中首要步骤就是收集数据。数据可以从多种渠道中获得,可以从数据仓库中,也可以从现有事务处理系统中得到。获得数据后,从中选择出与业务对象相关的,并且适用于数据挖掘应用的数据。而在收集阶段得到的数据可能存在一系列的

8、问题,表现在数据有缺失或存在自身的不一致性等。因此我们要先做数据的预处理,一般包括消除重复记录、推导计算缺值数据、完成数据类型的转换、消除噪声等。本次试验的数据来源于数据仓库中抽取的旅游业的客户服务数据,既有客户旅行完的问卷调查,也有网上评分。同时表明了客户对于服务重要性的打分。表1中的数据是客户认为服务重要性的5个打分,分别为1~5从不重要到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。