OA北京赛车源码下载机器学习:基于网格的聚类算法

OA北京赛车源码下载机器学习:基于网格的聚类算法

ID:43710049

大小:415.02 KB

页数:17页

时间:2019-10-13

OA北京赛车源码下载机器学习:基于网格的聚类算法_第1页
OA北京赛车源码下载机器学习:基于网格的聚类算法_第2页
OA北京赛车源码下载机器学习:基于网格的聚类算法_第3页
OA北京赛车源码下载机器学习:基于网格的聚类算法_第4页
OA北京赛车源码下载机器学习:基于网格的聚类算法_第5页
资源描述:

《OA北京赛车源码下载机器学习:基于网格的聚类算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、俗话说0A北京赛车源码下载dsluntan.com企娥3393756370:u物以类聚,人以群分”,在机器学习中,聚类算法是一种无监督分类算法。聚类算法很多,包括基于划分的聚类算法(如:kmeans),基于层次的聚类算法(如:BIRCH),基于密度的聚类算法(如:DBScan),基于网格的聚类算法等等。基于划分和层次聚类方法都无法发现非凸面形状的簇,真正能有效发现任意形状簇的算法是基于密度的算法,但基于密度的算法一般时间复杂度较高,1996年到2000年间,研究数据挖掘的学者们提出了大量基于网格的聚类算法,网格方法可以有

2、效减少算法的计算复杂度,•且同样对密度参数敏感。典型算法STING:基于网格多分辨率,将空间划分为方形单元,对应不同分辨率CLIQUE:结合网格和密度聚类的思想,子空间聚类处理大规模高维度数据WaveCluster:用小波分析使簇的边界变得更加清晰这些算法用不同的网格划分方法,将数据空间划分成为有限个单元(cell)的网格结构,并对网格数据结构进行了不同的处理,但核心步骤是相同的:1、划分网格2、使用网格单元内数据的统计信息对数据进行压缩表达3、基于这些统计信息判断高密度网格单元4、最后将相连的高密度网格单元识别为簇St

3、atisticalInformationGrid(STING)算法STING算法的核心思想:首先我们先划分一些层次,每个层次上我们根据维度或者概念分层不同的cell,实际上这里的每个层次对应的是样木的一个分辨率。每个高层的cell在其下一层中被对应得划分成多个cell,每个cell我们都计算出它的统计信息,估计出它的分布。利用这样的结构,我们很容易进行查询,比如我们查询具有某些属性的样本,我们从上到下开始,根据cell的统计信息计算query在每个cell的置信区间,找出最大的那个cell,然后到下一层,依次直至到最底层

4、。这样的好处是,我们不用计算所有的样本,算法毎进一层都会抛弃不相关的样本,所需的计算量会越来越少,那么速度就会很快。这种方法虽然不是一种显然的聚类法,但它确实可以用來聚类,因为query返回的样本实际上就是某一聚类。Query本质上于聚类问题是有等价性的。STING算法的两个参数:•网格的步长——确定空间网格划分•密度阈值——网格中对象数量大丁等丁该阈值表示该网格为稠密网格STING网格建立流程1•首先我们先划分一些层次,按层次划分网格1stleel(toplevel)couldhaveonlyonecell.Acel

5、lof(/-1)thlevelconespondsto4cellsof/thlevel・Figure1.HierarchicalStmclure1stlayer(/-I)thlayer/thlayer2•计算最底层单位网格的统计信息(如均值,最大值和最小值);网格中统计信息:•n——网格中对象数目•m一网格中所有值的平均值•s——网格中属性值的标准偏差•min网格中属性值的最小值•max网格中展性值的最大值•distribution网格屮属性值符合的分彳

6、j类型。如正态分彳

7、j,均匀分彳

8、j,指数分布1)最底层的单元参数

9、直接由数据计算,父单元格统计信息由其对应的子单元格计算,具体计算公式见2)3)2)父单元格计算公式如下Emgm=nmax=max(maXj)3)父单元格distribution计算方式设dist为对应子单元格多数的分布类型,计算confl若dis"ham,stas,confl=confl+nf若dis"HdistmJ沁m亦;!丸s,贝l]confl=n若dis"=dls^miam,stas’贝l]confl=confl+0若dish=农m或s"as’贝l]confl=n如果斗工>4阈值,设为0.05)fdist=NONE

10、,否则dist=dist示例:根据以下子网格计算父网格的参数11234)?i10050601020.119.721.020.5Si23292.42Jmini4.55.53.87maxi36343740clistiNORMALNORMALNORMALNONETable1:ParametersofChildrenCellsn=220m=(20.1100)+仃9.750+2160+20.510)/220=2260/220=20.27s=2.37min=3.8max=40dist=NORMAL1•从最底层逐层计算上一层每个父单元

11、格的统计信息,直到最顶层;2.同时根据密度阈值标记稠密网格levelileveli+1leveli+2cellsof(i)thlevelacellof(i-1)thlevelcorrespondsto4STING查询算法步骤:(1)从一个层次开始(2)对于这一个层次的每个单元格,我们计算查询相关的属性值。(3)从计算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。