基于高斯分布随机样本生成小样本聚类算法

ID：5942929

大小：28.50 KB

页数：7页

时间：2017-12-29

资源描述：

《基于高斯分布随机样本生成小样本聚类算法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于高斯分布随机样本生成小样本聚类算法　　摘要：针对传统聚类算法在小样本数据集上聚类效果不理想的问题，该文提出了一种基于高斯分布随机样本生成的小样本聚类算法。该算法首先对小样本数据中的每一个样本，构造高斯分布。然后根据该高斯分布在原始样本周围生成一定数目的高斯随机样本，并在随机样本的辅助下进行聚类。最后将随机样本去除得到最终的聚类结果。在UCI标准数据集上的仿真实验，显示本文算法较传统聚类算法具有更好的小样本聚类效果。关键词：聚类算法；高斯分布；随机样本；小样本中图分类号：TP391文献标识码：A文章编号：1009-3044（2013）29-6609-031概述

2、聚类[1-4]与分类[5-7]是模式识别[8-10]领域最重要的两个研究问题，分类问题是一种有标签学习，与分类问题不同，分类问题是一种无标签学习，它通过样本间的相似性，将样本划分为寄个不同的簇，其中每一个簇内样本的相似度较大，不同簇之间，样本的相似度较小。经过几十年来内外学者的努力，已经出现了很多较为实用的聚类算法，详细的关于聚类算法的叙述请见第2小节。7尽管传统聚类算法在日常生活的各个领域获得了较为成功地应用，但是这些聚类算法往往要求待聚类的样本数目较多。当样本数目较少时，即小样本聚类问题，它们的聚类效果通常不够理想。这主要是因为样本数目太少，传统聚类算法无法

3、对样本在空间中的分布进行比较准确的划分。这一点与分类问题中小样本问题上分类器泛化性能不好非常类似。因此针对小样本聚类问题，研究刻画样本分布的有效聚类算法就成为了国内外学者研究的热点，具有重要的理论价值和应用前景。针对小样本问题上的聚类研究，该文提出了一种基于高斯分布随机样本生成的小样本聚类算法，该算法首先对小样本数据集中每一个的样本构建一个高斯分布，然后根据该高斯分布在原始样本的周围生成一定数目的随机样本，并将这些随机样本加入到原始样本中，构造新的聚类样本集。最后在新的样本集上进行聚类。由于利用高斯分布在原始样本的周围生成了适量的随机样本，扩充了原始样本的数目，

4、因此本文提出的聚类算法可以获得较好的聚类效果，详细分析请见第3小节。本文组织如下：该文第2节对传统聚类思想分类别进行了介绍；第3节提出了一种基于高斯分布[11]随机样本生成的小样本聚类算法；第4节在UCI标准数据集上对本文算法进行测试，给出实验结果，并对结果进行详细的分析；第5总结全文。72传统聚类方法研究介绍主要的聚类算法可以划分为如下几类：基于划分的方法（partitioningmethods）、基于层次的方法（hierarchicalmethods）、基于密度的方法（density-basedmethods）、基于网格的方法（grid-basedmetho

5、ds）和基于模型的方法（model-basedmethods）等。下面对这几类聚类算法分别进行描述。基于划分的方法：给定一个n个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个聚类，并且k　　生成的随机样本虽然可以对原始样本集进行扩充，然而如果影响了原始样本集的分布，最后的聚类效果依然不会理想，所以随机样本分布的选择就是本文算法成功的关键。针对该问题，该文设计了一种基于高斯分布的随机样本生成方法。由于高斯分布涉及到均值和标准差两个参量，下面对这两个参量的确定进行详细的描述。设x为原始数据集中的任意一个样本，针对该样本，可以构造如下高斯分布N（

6、u，σ2），其中均值u以样本x进行赋值，标准差σ则设定为1。如此赋值可以实现在原始样本周围生成随机样本的目的，从而既保持了原有样本的分布，又对原始样本集进行了扩充，因此聚类算法的有效性就得到了保障。下面给出本文的基于高斯分布随机样本生成的小样本聚类算法（Asmallsampleclusteringalgorithmby7generatingrandomsamplesfromGaussiandistribution，SSCGRSGD算法），如算法1所示。算法1：SSCGRSGD算法输入：待聚类样本集[D={x1，x2，…，xl}]，其中[xi∈Rn]，l是样本集所

7、包含的样本数目；随机样本生成数目m输出：聚类划分结果方法：第1步：对每一个样本xi构建高斯分布N（ui，σi2），其中ui=xi，σi=1；第2步：利用每一个构建的高斯分布N（ui，σi2），生成m个随机样本；第3步：将lm个随机样本与l个原始样本合并，构造新的样本集D1；第4步：在训练集D1上进行传统聚类算法（如k-means聚类）学习；第5步：将随机样本去除，得到最终的聚类结果。4实验7为了测试本文提出的SSCGRSGD算法的有效性，该文在UCI标准数据库中选取了5个数据集合进行了测试，所选数据集名称及选取的样本数目如表1所示。该文SSCGRSGD算法设定m

8、=5，所以每一次聚类，训

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于高斯分布随机样本生成小样本聚类算法

基于高斯分布随机样本生成小样本聚类算法

相关文章

相关标签