欢迎来到天天文库
浏览记录
ID:25355715
大小:1.59 MB
页数:53页
时间:2018-11-19
《数据挖掘算法介绍》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘算法介绍——张艺馨2015/5/11数据挖掘十大经典算法K-MEANSC4.5SVMEMKnn贝叶斯CARTAdaboostPagerankApriori聚类算法层次聚类K-means聚类基于密度的聚类(DBSCAN)模糊聚类(FCM)两步聚类Kohonen网络聚类平衡数据——SMOTE算法分类算法KNN算法决策树(C5.0,CART)人工神经网络随机森林支持向量机(SVM)基于密度的聚类DBSCAN——基于高密度连通区域的聚类OPTICS——通过点排序识别聚类结构DENCLUE——基于密度分布函数的聚类DBSCAN聚类DBSCAN聚类认为,在整个样本空间中,目标类簇是由一群稠密样
2、本点构成,这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。DBSCAN是一种基于高密度联通区域的聚类算法,它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感,并且能发现任意形状的类簇。ClustersDBSCAN特点发现任意形状的聚类处理噪音一遍扫描需要密度参数作为终止条件基本概念(1)E邻域:给定对象半径为E内的区域称为该对象的E邻域(2)核对象:如果一个对象E邻域内的样本点数大于等于事先给定的最小样本点数MinPts,则称该对象为核对象(3)直接密度可达:给定一个对象集合D,如果p在q的E邻域内,而q是一个核心对象,则称对象p从对象q出发
3、时是直接密度可达。基本概念(4)密度可达:如果存在一个对象链对于是从关于Eps和MinPts直接密度可达的,则对象p是从对象q关于Eps和MinPts密度可达的(density-reachable)。(5)密度相连:如果存在对象O∈D,使对象p和q都是从O关于Eps和MinPts密度可达的,那么对象p到q是关于Eps和MinPts密度相连的算法(1)对数据集中的任一点p找到它的所有直接密度可达,标记p为核心点或边缘点或噪声点(2)重复上述步骤,标记出所有点。(3)聚类:剔除噪声点①依据密度可达或密度相连,将距离小于eps的核心点连接成一个类②将所有边缘点依次分派到相应核心点的类中两步聚类两
4、步聚类:Chiu,2001年在BIRCH(BalancedIterativeReducingandClusteringusingHierarchies)算法基础上提出的一种改进算法。特点:算法尤其适合于大型数据集的聚类研究通过两步实现数据聚类同时处理数值型聚类变量和分类型聚类变量根据一定准则确定聚类数目诊断样本中的离群点和噪声数据数值型——欧式距离数值型+分类型——对数似然距离两步聚类——预聚类一个聚类特征CF是一个三元组(N,LS,SS),N是簇中的点的数目,LS是N个点的线性和,SS是N个点的平方和。两步聚类——预聚类预聚类过程:建立CF树(1)视所有数据为大类,统计量存在根结点中(2
5、)读入一个样本点,从CF树的根结点开始,利用结点的统计量,计算数据与中间结点的对数似然距离。沿对数似然距离最小的中间结点依次向下选择路径直到叶结点(3)计算与子树中所有叶结点(子类)的对数似然距离,找到距离最近的叶结点两步聚类——预聚类预聚类过程(1)如果最近距离小于一定阈值,则该数据被相应的叶结点“吸收”;否则,该数据将“开辟”一个新的叶结点。重新计算叶结点和相应所有父结点的汇总统计量(2)叶结点足够大时应再分裂成两个叶结点(3)叶结点个数达到允许的最大聚类数目时,应适当增加阈值重新建树,以得到一棵较小的CF树(4)重复上述过程,直到所有数据均被分配到某个叶结点(子类)为止两步聚类——聚
6、类(1)聚类过程:分析对象是预聚类所形成的稠密区域(2)方法:层次聚类法(3)逐步将较多的小类合并为较少的大类,再将较少的大类合并成更少的更大类,最终将更大类的合并成一个大类,是一个类不断“凝聚”的过程两步聚类——聚类数目的确定第一阶段:依据BIC,确定粗略的聚类数找到R1(J)取最小值(Modeler规定R1(J)应小于0.04)的J为聚类数目的“粗略”估计,即BIC减小幅度最小的J两步聚类——聚类数目的确定第二阶段:对“粗略”估计值J的修正2,3,4,…,J中选择。仅依据类间对数似然距离,不考虑模型复杂度J类时的最小对数似然距离d(4)d(3)d(2)d(5)计算R2(J-1)、R2(
7、J-2)到R2(2),反映J-1类的类内差是J类的倍数。Modeler找到最大值,若最大值是次大值的1.15倍以上,则最大值对应的J为最终聚类数R2(J)是聚类合并过程中类间差异最小值变化的相对指标模糊聚类——FCMFCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在(0,1)间的元素,满足目标函数:SSE=(2)拉格
此文档下载收益归作者所有