数据分析方法与技术-聚类分析实验报告

数据分析方法与技术-聚类分析实验报告

ID:44049362

大小:1011.39 KB

页数:16页

时间:2019-10-18

数据分析方法与技术-聚类分析实验报告_第1页
数据分析方法与技术-聚类分析实验报告_第2页
数据分析方法与技术-聚类分析实验报告_第3页
数据分析方法与技术-聚类分析实验报告_第4页
数据分析方法与技术-聚类分析实验报告_第5页
资源描述:

《数据分析方法与技术-聚类分析实验报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、电&科技丈曇政箔鸟公磐管殛曇浣本科教学实验报告(实验)课程名称:数据分析技术系列实验电子科技大学教务处制表电孑科孩丈学实验报告学生姓名:学号:指导教师:—、实验室名称:电子政务可视化实验室二、实验项目名称:聚类分析三、实验原理基于划分的聚类:基于划分的聚类分析(partitioning-basedclusteranalysis)与层次聚类分析不同,事先需要指定将数据分为几类。给定一个有n个个体的数据集,将它划分为k个部分(kWn),每个小部分即为一类。它需要满足以下两个条件:(1)k类中任意一类不为空集,即每一类中至少有一个个体;(2)每一个体都

2、属于且仅属于k类中的一类。在新近发展起来的一些基于划分的聚类分析算法中,第二个条件可以被适当放松。总之,限制条件不是绝对的。1.初始凝聚点的选择凝聚点即各类的代表点,基于划分的聚类分析算法屮首先需要找到k个凝聚点分别作为k类的中心,用来形成初始分类。初始凝聚点的选择主要有以下几种方法:(1)经验选择,根据对问题背景的了解,选择合适的点作为初始凝聚点。这是最理想的一种方法,利用对问题本身背景信息的了解,既可以通过较少的迭代次数达到稳定分类,又能够满足问题在聚类中的一些特殊需求。(2)随机选取k个点或者选择数据中前k个点作为凝聚点。在缺少已知信息的情

3、况下常常使用这种方法。(3)将数据人为地分为k类,将每一类的重心作为初始凝聚点。(1)密度法人为地指定两个正数dl和d2(d2>dl),以每个样本点为中心,落在与该点距离小于dl的球内的样本个数即为该点的密度。首先选择具有最大密度的点作为第一个凝聚点,然后选择次大密度的样本点,如果它和第一凝聚点Z间的距离小丁d2,则该点取消;如果它与第一凝聚点Z间的距离大于d2,则该点作为第二个凝聚点。按照这个方法一直选下去,每个新选出的凝聚点与已经选好的凝聚点之间的距离均要大于d2,直到选出k个凝聚点为止。若无法选出k个凝聚点,则应适当调整dl和d2的大小使过

4、程能够进行下去。1.初始分类最常用的初始分类方法有以下儿种。(1)根据样本点间距离的定义,每个样本归入与其距离最近的凝聚点所代表的类屮。(2)将选出的每个凝聚点视为一类,第一个样本点进入吋,归入与其距离最近的凝聚点所代表的一类,并对更新的类重新计算屮心作为修正后的凝聚点替代原有凝聚点,此后各个样本点按此方法依次进入。(3)首先人为指定一个止数d,将第一个样本点视为第一类。此后第二个样本点进入,若它与第一个样木点之间的距离dI2>d,则第二个样木点视为第二类;若它与第一个样本点之间的距离血Wd,则第二个样本点进入第一类。当第1个样本点进入时已经有m

5、个划分好的类,每个类第一次进入的样本点记为X讥,xi2f…,X讯。若min则第1个样本进入与其距离最近的点所代表的那一类;否则,第/个样木口成为新的一类。注意,这个方法不需要选择初始凝聚点就能够进行初始分类。2.修改分类的方法修改分类的方法主要有网种:(1)按批修改法1)选择一批初始凝聚点,定义点与点之间的距离;2)所有样木点按照最近初始凝聚点分类;3)计算每一类的重心,将类的重心作为新的凝聚点,重新对所冇样本点分类,当所有凝聚点与上一次凝聚点重合时过程停止。按批修改法的优点是计算量较小,计算速度快;其缺点是最终聚类结果与初始凝聚点选择有关。逐个

6、修改法(2)逐个修改法按批修改法在每一次迭代的过程中凝聚点不变,另一种想法是在每一个样本进入之后随之调整凝聚点,这就是逐个修改法。逐个修改法又被称为"K-means”方法,由MacQueen在1967年捉出,现在已经成为聚类分析中最常用的方法之一。其步骤为:1)在n个数据屮选取k个作为凝聚点,并且定义点与点之间的距离;2)其余n-k个点逐个进入,每个点进入时归入与相应凝聚点距离最近的类屮,每个点进入之后重新计算每一类的重心作为该类新的凝聚点;3)重复2)直至所有类的凝聚点均不再变化为止。EM聚类EM聚类是一种基于模型的聚类方法。即试图使给定数据与

7、某个数学模型达到最佳拟合。主要有统计方法和神经网络方法。EM聚类主要基于数理统计模型和概念进行聚类。EM聚类方法认为:样本点都是来口服从某种分布的总体,属于不同类的个体分别来自具有不同分布或者参数的总体,而整个样木就是来自多个分布的数据的一个混合,每一个分布成为一个子总体。EM聚类即耍在一定的分布假定基础上找到一系列参数来拟合不同的子总体,再根据每个样本落入不同总体的概率来判定该样木来自哪一个子总体,进而对样木进行聚类。EM聚类算法的具体过程如下:1)确定数据被聚为多少类,即需确定kO2)对数据的分布类型作出假定。3)给出各子总体的初始参数初始参

8、数的选择对最终结果冇很大影响。4)利用EM方法对初始参数迭代进行修正,直到满足终止条件。1.E步骤E代表expectation根据贝叶斯

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。