聚类融合算法分析与其在电信客户细分中的应用

聚类融合算法分析与其在电信客户细分中的应用

ID:32187475

大小:2.04 MB

页数:53页

时间:2019-02-01

聚类融合算法分析与其在电信客户细分中的应用_第1页
聚类融合算法分析与其在电信客户细分中的应用_第2页
聚类融合算法分析与其在电信客户细分中的应用_第3页
聚类融合算法分析与其在电信客户细分中的应用_第4页
聚类融合算法分析与其在电信客户细分中的应用_第5页
资源描述:

《聚类融合算法分析与其在电信客户细分中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士论文聚类融合算法研究及其在电信客户细分中的应用究领域,也产生了共协矩阵算法(Co.association,SL,CL,AL等)、投票算法、信息论算法、混合模型算法和超图算法(CSPA,HGPA,MCLA)等经典和高效的算法。聚类融合技术历经愈十年的发展,虽然也取得了一些成就,但在这一领域的研究还远远未达到成熟的地步,有一些问题是需要亟待解决的:1、最终的聚类个数K如何选取,始终是聚类研究的重点和难点问题,K值的选择不同,会导致最终结果的千差万别,在聚类融合中,怎样确定聚类成员的K值以及最终融合结果的K值,值得进一步探讨。2、由于聚类成员的质量有时差别也会很大,所以有必要对聚类成员的质量给予

2、一个量化的标准,同时,如何对质量不同的聚类成员赋予相应的权值,也是未来研究的重点之一。3、对于海量数据、高维数据、混叠数据等特定数据类型,在差异度量化分析以及提高融合效率等方面,还需要作进一步研究,尤其是在聚类成员之间互相不独立的情况下。4、考虑到“硬”聚类算法和“软”聚类算法各自的优点和局限性,那么对于“硬"聚类成员和“软’’聚类成员同时存在的情况下,如何将二者高效统一也是值得关注和具有挑战性的热点问题。5、聚类融合算法的可扩展性、增量性研究对于更广泛的实际应用也具有十分重要的意义。1.3论文内容及结构本论文深入分析研究了数据挖掘中的聚类和聚类融合技术,着重对一些经典的算法进行横纵向比较,并

3、针对目前聚类融合算法中存在的问题和局限性,引入了一种基于PCA的加权聚类融合算法(PCA.basedClusteringEnsemble,PCE)。改进后的算法通过PCA的思想来确定化初始聚类中心,避免了随机选取初始聚类中心产生的问题;同时,算法采用质量系数和K值系数作为权值的分配依据,通过加权的方式对各个聚类成员进行融合,最大限度的降低干扰。最后,将改进的算法应用到电信的客户细分中。论文框架结构如下:第一章绪论,概述了数据挖掘的产生和发展状况,并简要介绍了聚类分析及聚类融合的技术背景和国内外发展现状。第二章重点介绍了聚类分析,从聚类的定义、数据的组织和表示、聚类算法的分类、聚类的评价标准以及

4、经典算法的对比等几个方面,深入研究了聚类和聚类技术的发展状况和应用前景。31绪论硕士论文第三章是聚类融合技术部分,介绍了聚类融合的算法思想以及与单一聚类算法相比较所体现出的优势,着重分析讨论了常见的聚类融合算法,最后介绍了聚类成员之间的相异度度量准则。第四章是本论文的核心章节,在现有的融合算法的思想基础上,引入一种基于PCA的加权融合,用PCA算法来产生聚类成员,避免了选取初始聚类中心不当产生的干扰,同时将聚类成员的K值评价和质量评价融入到加权函数中,并对算法进行了仿真实验和结果分析。第五章详细介绍了客户细分以及客户细分在电信行业的战略地位,并根据电信数据量大的特点,采用Delaunay三角网

5、进行粗抽样,然后将改进后的融合算法用于客户细分模型中,结果证明该算法能有效将客户细分为具有不同特征行为的集群,对决策者制定营销策略提供了帮助。4硕士论文聚类融合算法研究及其在电信客户细分中的应用2聚类算法综述及经典聚类算法比较将对象按照其相似性分成相应的簇集的过程称为聚类。聚类结果的每一个簇都是对象的集合,聚类的目的就是使得同一个簇集中的对象之间最大程度地相似,而不同簇集中的对象最大程度地不同。假设X代表一组数据集,s和d表示度量标准(s是相似性度量函数,d是相异度度量函数),那么聚类分析的输入可以用数据集和相应的度量函数组成的有序对来表示,即()(,s)或(X,d);而输出的结果就是划分好的

6、簇集,即C={C。,C:,C。⋯C。),其中ci(i-1,2,3⋯k)是X的子集,且满足下列条件[21:C1UCU⋯UC:=X(2.1)enC,=巾,f,/=1,2,3..七f≠,(2.2)2.1聚类的流程及聚类算法的分类2.1.1聚类的流程图2.1显示的是聚类的流程,一个典型的聚类分析过程由数据预处理、聚类算法的选择设计、聚类评价以及结果展示四个部分组成,它们彼此间联系紧密相互依赖。图2.1聚类流程1、数据预处理。数据集的类型多种多样,对于不同的数据集,预处理的方法也不相同。因此,正确判断出数据集的类型是获得准确聚类结果的前提。2、特征选择和抽取。即通过降维或特征变换从原始数据集中抽取特征,

7、提高聚类算法的效率,降低算法的计算复杂度。适合应用在高维数据集中。3、聚类算法的设计和选择。这是整个聚类流程的核心部分,根据数据类型的特点,选择相应的差异度测量准则,并在此基础上选择合适的聚类算法和给出正确的初52聚类算法综述及经典聚类算法比较硕士论文始参数,构建聚类准则评价函数,通过递归或者迭代等方法,满足目标函数的终止条件,实现“簇”划分的优化【l21。4、聚类评测,也称为聚类有效性验证(cl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。