基于高斯分布随机样本生成小样本聚类算法

基于高斯分布随机样本生成小样本聚类算法

ID:5942929

大小:28.50 KB

页数:7页

时间:2017-12-29

基于高斯分布随机样本生成小样本聚类算法_第1页
基于高斯分布随机样本生成小样本聚类算法_第2页
基于高斯分布随机样本生成小样本聚类算法_第3页
基于高斯分布随机样本生成小样本聚类算法_第4页
基于高斯分布随机样本生成小样本聚类算法_第5页
资源描述:

《基于高斯分布随机样本生成小样本聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于高斯分布随机样本生成小样本聚类算法  摘要:针对传统聚类算法在小样本数据集上聚类效果不理想的问题,该文提出了一种基于高斯分布随机样本生成的小样本聚类算法。该算法首先对小样本数据中的每一个样本,构造高斯分布。然后根据该高斯分布在原始样本周围生成一定数目的高斯随机样本,并在随机样本的辅助下进行聚类。最后将随机样本去除得到最终的聚类结果。在UCI标准数据集上的仿真实验,显示本文算法较传统聚类算法具有更好的小样本聚类效果。关键词:聚类算法;高斯分布;随机样本;小样本中图分类号:TP391文献标识码:A文章编号:1009-3044(2013)29-6609-031概述

2、聚类[1-4]与分类[5-7]是模式识别[8-10]领域最重要的两个研究问题,分类问题是一种有标签学习,与分类问题不同,分类问题是一种无标签学习,它通过样本间的相似性,将样本划分为寄个不同的簇,其中每一个簇内样本的相似度较大,不同簇之间,样本的相似度较小。经过几十年来内外学者的努力,已经出现了很多较为实用的聚类算法,详细的关于聚类算法的叙述请见第2小节。7尽管传统聚类算法在日常生活的各个领域获得了较为成功地应用,但是这些聚类算法往往要求待聚类的样本数目较多。当样本数目较少时,即小样本聚类问题,它们的聚类效果通常不够理想。这主要是因为样本数目太少,传统聚类算法无法

3、对样本在空间中的分布进行比较准确的划分。这一点与分类问题中小样本问题上分类器泛化性能不好非常类似。因此针对小样本聚类问题,研究刻画样本分布的有效聚类算法就成为了国内外学者研究的热点,具有重要的理论价值和应用前景。针对小样本问题上的聚类研究,该文提出了一种基于高斯分布随机样本生成的小样本聚类算法,该算法首先对小样本数据集中每一个的样本构建一个高斯分布,然后根据该高斯分布在原始样本的周围生成一定数目的随机样本,并将这些随机样本加入到原始样本中,构造新的聚类样本集。最后在新的样本集上进行聚类。由于利用高斯分布在原始样本的周围生成了适量的随机样本,扩充了原始样本的数目,

4、因此本文提出的聚类算法可以获得较好的聚类效果,详细分析请见第3小节。本文组织如下:该文第2节对传统聚类思想分类别进行了介绍;第3节提出了一种基于高斯分布[11]随机样本生成的小样本聚类算法;第4节在UCI标准数据集上对本文算法进行测试,给出实验结果,并对结果进行详细的分析;第5总结全文。72传统聚类方法研究介绍主要的聚类算法可以划分为如下几类:基于划分的方法(partitioningmethods)、基于层次的方法(hierarchicalmethods)、基于密度的方法(density-basedmethods)、基于网格的方法(grid-basedmetho

5、ds)和基于模型的方法(model-basedmethods)等。下面对这几类聚类算法分别进行描述。基于划分的方法:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚类,并且k  生成的随机样本虽然可以对原始样本集进行扩充,然而如果影响了原始样本集的分布,最后的聚类效果依然不会理想,所以随机样本分布的选择就是本文算法成功的关键。针对该问题,该文设计了一种基于高斯分布的随机样本生成方法。由于高斯分布涉及到均值和标准差两个参量,下面对这两个参量的确定进行详细的描述。设x为原始数据集中的任意一个样本,针对该样本,可以构造如下高斯分布N(

6、u,σ2),其中均值u以样本x进行赋值,标准差σ则设定为1。如此赋值可以实现在原始样本周围生成随机样本的目的,从而既保持了原有样本的分布,又对原始样本集进行了扩充,因此聚类算法的有效性就得到了保障。下面给出本文的基于高斯分布随机样本生成的小样本聚类算法(Asmallsampleclusteringalgorithmby7generatingrandomsamplesfromGaussiandistribution,SSCGRSGD算法),如算法1所示。算法1:SSCGRSGD算法输入:待聚类样本集[D={x1,x2,…,xl}],其中[xi∈Rn],l是样本集所

7、包含的样本数目;随机样本生成数目m输出:聚类划分结果方法:第1步:对每一个样本xi构建高斯分布N(ui,σi2),其中ui=xi,σi=1;第2步:利用每一个构建的高斯分布N(ui,σi2),生成m个随机样本;第3步:将lm个随机样本与l个原始样本合并,构造新的样本集D1;第4步:在训练集D1上进行传统聚类算法(如k-means聚类)学习;第5步:将随机样本去除,得到最终的聚类结果。4实验7为了测试本文提出的SSCGRSGD算法的有效性,该文在UCI标准数据库中选取了5个数据集合进行了测试,所选数据集名称及选取的样本数目如表1所示。该文SSCGRSGD算法设定m

8、=5,所以每一次聚类,训

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。