欢迎来到天天文库
浏览记录
ID:40848621
大小:471.50 KB
页数:26页
时间:2019-08-08
《k-means聚类、EM聚类、模糊聚类比较》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、聚类IRLAB大纲聚类分析简介层次聚类单连接和全连接聚类组平均聚类应用:改进语言模型自顶向下聚类非层次聚类K-均值EM算法什么是聚类分析?聚类:数据对象的集合在同一个类中,数据对象是相似的不同类之间的对象是不相似的聚类分析一个数据集合分组成几个聚类聚类是一种无监督分类:没有预定义的类典型应用作为一个独立的工具透视数据分布可以作为其他算法的预处理步骤聚类算法类型层次聚类与非层次聚类自底向上与自上向下(凝聚与分裂)K-均值软聚类与硬聚类K-均值模糊聚类(EM算法)层次聚类自底向下的聚类每一项自成一类迭代,将最近的两类合为一类自顶向下的聚类将所有项看作一
2、类找出最不相似的项分裂出去成为两类类的相似度度量我们可以知道两个项之间的相似度,但是聚类要求知道类与类之间的相似度三种方法:单连接方法全连接方法组平均方法非层次聚类K-均值硬聚类计算每个类的中心EM算法考虑稀疏数据公式用EM算法计算P(ci
3、w1)K-均值将n个向量分到k个类别中去选择k个初始中心计算两项距离计算均值K-均值算法EM-算法算法族以前的一个例子:前向后项算法是EM算法的一个例子可以用于任意的概率模型E(likelihood)及maxlikelihoodestimite估计模糊聚类经典的k均值聚类算法的一部迭代中,每一个样本点都被认为是
4、完全属于某一类别。模糊聚类放松这一条件,假定每个样本是模糊隶属于某一类的。每类是一个高斯分布样本集合模拟成一个高斯混合分布点集x1,……xnK个类Z为二维数组,zij为1表示xi在j类中,否则为0每个j类定义为一个高斯分布EM算法用先前的概率累加任意一项xi的概率EM算法参数给定参数下x的值EM算法找到zij的期望值并用它计算最大似然估计,反复迭代,直到收敛。EM算法我们从初始迭代直到收敛是局部最优K均值是用EM算法求解高斯混合分布的特例特点
此文档下载收益归作者所有