欢迎来到天天文库
浏览记录
ID:39345923
大小:150.62 KB
页数:13页
时间:2019-07-01
《金融数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、金融数据挖掘论文院系:理学院专业班级:信息与计算科学132班学号:201311010213姓名:施秋梅日期:2016年6月24日摘要本文主要讲述金融数据挖掘中的聚类分析,主要介绍聚类分析的几种聚类的方法——系统层次聚类法,k-均值算法,BIRCH算法和基于密度的聚类算法。然后通过几个实例来深度了解这几种算法,最后是聚类分析在生活中的应用。12目录摘要11.前言32.相关算法分析32.1系统层次聚类法32.2k-均值算法42.3BIRCH算法62.4基于密度的聚类算法73.实例分析83.1R语言的一个实例84.应用105.总
2、结11121、前言聚类分析也称无教师学习或无指导学习,与分类学习相比,聚类的样本一般事先不做标记,需要由聚类学习算法自动确定。聚类分析是在没有训练目标的情况下将样本划分为若干簇的方法。聚类分析是数据挖掘中重要的分析方法,由于数据和问题的复杂性,数据挖掘对聚类方法有一些特殊的需要,这些需要表现为:大规模数据中块特征的认识需要,能够处理不同属性数据的聚组,适应不同形状的聚类方法,具备抗强噪声的能力和较好的解释性,不受输入数据的顺序的影响,高维聚类以及能够和具体的约束兼容等,以上需要造就了丰富的聚类分析方法,也使得聚类分析广泛的
3、应用于客户分析、文本归类、结构分组和行为跟踪等问题中,成为数据挖掘中发展很快而且灵活变化丰富的一个分支。聚类分析是一种探索数据分组的统计方法,其目的是建立一种归类的方法,将一批样本或变量,按照它们在特征上的水程度进行分类,使得组内样品的相似度达到最大,而组间的差距达到最大。即簇内部的人艺两个样本之间具有较高的相似度,而属于不同簇的两个样本之间具有较高的相异度。相异度通常用样本间的距离刻画。在实际应用中,经常将一个簇中的数据样本作为同质的整体看待,有简化问题和过滤冗余信息的作用。聚类分析的目标就是在相似的基础上收集数据来分类
4、。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。2、相关算法分析2.1系统层次聚类法距离分层的典型方法是层次聚类算法。层次聚类法也称为系统层次聚类法,其想法是首先将所有的样品都单独作为一类,然后计算任意两个类之间的距离,将其中距离最近的两个类合并为一类,同时聚类的数量减一。不断重复这个过程,直到最后只剩下最大的类别。层次聚类算法的步骤可以概括如下:(1)根据适当的距离定义准则,计
5、算现有的N个类别两两之间的距离,找到其中最近的两个类(不妨记为P和Q);12(2)将P,Q合并,作为一个新类PQ,加上剩下的N-2个类,此时共有N-1个类;(3)重复步骤(1)(2),直到聚类数缩减为1停止。系统聚类的算法复杂度是O(n^2),上述聚类的结果可以用一个树状图展示,如图2.1所示,其中树的最低端表示所有的样品单独成类,最顶端表示所有的样品归为一类,而在此之间,聚类数从N-1变动到2。在任何一个给定的高度上,都可以判断哪些样品被分在树的同一枝,而聚类数的确定,需要通过实际情况进行判断。图2.12.2k-均值算法
6、k-均值算法是另一种应用范围非常广的聚类方法,它是一种典型的划分聚类的方法。其思想是在给定聚类数K时,通过最小化组内误差平方和来得到每一个样本点的分类。k-均值算法的过程大致如下:(1)从N个样本点在中任意选择(一般是随机分配)K个作为初始聚类中心;(2)对于剩下的其他样本点,根据他们与样本中心的距离,分别将他们分派给与其最相似的中心所在的类别;(3)计算每个新类的聚类中心;(4)不断重复(2),(3),直到所有的样本点的分类不再改变或类中心不再改变。12具体如下:输入:k,data[n];(1)选择k个初始中心点,例如c
7、[0]=data[0],…c[k-1]=data[k-1];(2)对于data[0]….data[n],分别与c[0]…c[k-1]比较,假定与c[i]差值最少,就标记为i;(3)对于所有标记为i点,重新计算c[i]={所有标记为i的data[j]之和}/标记为i的个数;(4)重复(2)(3),直到所有c[i]值的变化小于给定阈值。K-均值算法的第二个人问题是容易受到初始点选择的影响,在分类数据上分辨力不强,不适用于非凸问题,受异常数据影响,受到不同类别的密度方差大小的影响。解决的方法是采用二分K-均值过程。其主要思想是:
8、假设要将样本数据分为K个簇,先用基本K-均值算法将所有的数据分为两个簇,从所得结果中选择一个较大的簇,继续使用K-均值算法进行分裂操作,直到得到K个簇,算法终止。二分K-均值算法步骤如下:输入:训练数据集D,二分次数m,目标簇数k。输出:簇集N={N1,N2……,Nk}。(1)初始化簇集S,它只含一个包
此文档下载收益归作者所有