无监督学习与聚类

无监督学习与聚类

ID:21707640

大小:1.12 MB

页数:39页

时间:2018-10-20

无监督学习与聚类_第1页
无监督学习与聚类_第2页
无监督学习与聚类_第3页
无监督学习与聚类_第4页
无监督学习与聚类_第5页
资源描述:

《无监督学习与聚类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十章无监督学习与聚类10.0监督学习与无监督学习监督学习与无监督学习的最大区别在于训练样本是否有类别标号,无类别标号的称为无监督学习;监督学习与无监督学习也被称为有教师学习与无教师学习。10.1混合密度及可辨识性从理论上讲,无监督学习可以看作是一个混合密度的估计问题:所有样本都来自于c种类别,c已知;每种类别的先验概率未知;类条件概率的数学形式已知,但参数未知;样本类别未被标记。混合密度样本可以看作是按如下方式产生的:先以概率决定其所属类别,然后根据概率密度生成一个具体的样本x。因此x样本的产生概率为:可辨识性不可辨识:如果无论样本的数目有多少,都不存在唯一的解,则称密度是不可

2、辨识的;完全不可辨识:如果参数的任何部分都无法求出,则称为完全不可辨识;大多数的混合密度是可以辨识的,但也存在某些混合密度是无法辨识的。完全不可辨识假设样本x的概率是由两个0-1分布混合而成,两个分布的先验概率相等,参数分别为则混合概率为:即使可以统计出,也无法求解出参数。部分不可辨识假设样本x的概率密度是两个均匀分布的混合:如果训练样本是0-1之间的均匀分布:则对任意的0

3、则基于行列式的散布准则:基于不变量的散布准则:准则函数的优化穷举法优化:聚类准则函数的优化是组合最优问题,是一个NP难题,将n个样本分到c个类别有cn/c!种分法,穷举计算是不现实的,只能寻找次优方法解决;迭代最优化:随机设置初始聚类,计算将样本x从Di聚类移到Dj聚类是否能够使准则函数减小,减小则做此修改,否则不修改。10.3k-均值聚类begininitialize样本数n,聚类数c,初始聚类中心m1,…,mc;do按照最近邻mi分类n个样本;重新计算聚类中心m1,…,mc;untilmi不再改变;returnm1,…,mc;endk-均值聚类的特点k-均值算法可以看作是对平

4、方误差准则函数的贪心搜索算法;聚类结果受初始聚类中心的选择影响很大,不同的初始聚类中心会导致不同的聚类结果。模糊k-均值聚类k-均值算法的每一步迭代中,每一个样本都被认为完全属于某一个类别。作为改进版本,可以引入模糊的概念,假定每个样本以某种隶属度函数属于某个类别;样本x对第i个聚类的隶属度可以定义为:其中mi为第i个聚类的均值,b>1为控制不同类别混合程度的自由参数。模糊k-均值聚类算法begininitializen,c,b,m1,…,mc;do计算n个样本对c个类别的隶属度:重新计算各个聚类的均值m1,…,mc;untilm1,…,mc变化很小;returnm1,…,mc。

5、10.4层次聚类begininitializec,c’n,Di{xi},i=1,…,n;doc’c’-1求最接近的聚类,如Di和Dj;合并Di和Dj;untilc’=c;returnc个聚类;end层次聚类的树图相似度标尺层次聚类的特点层次聚类不用初始化聚类中心,因此聚类结果不受初始聚类中心的影响;需要定义类别之间的相似性度量;当样本数比较多时,算法的计算量比较大(算法第3步)。聚类结果同样是对平方误差准则函数的贪心优化结果。Hausdorff距离最大距离:最小距离:平均距离:中心距离:聚类算法存在的问题(一)准则函数的选择平方误差准则Je比较大平方误差准则Je比较小聚类算

6、法存在的问题(二)特征量纲的影响(缩放坐标轴)10.5竞争学习Hebb假设:如果一条突触两侧的神经元同时被激活,则该突触的强度将会增大;Hebb学习规则:第i个神经元与第j个神经元之间的连接wij,第i个神经元向第j个神经元的输出为p,第j个神经元的输出为a,则:其中η为学习率。竞争网络样本的特征维数为d,输入层神经元数d+1,输入样本须归一化到单位长度;输出层对应c个类别;输出层神经元之间有侧向抑制连接,对于每一个输入样本,只有一个竞争层神经元被激活(称为胜元,输出1),其它神经元被抑制(输出0)。输入层竞争层竞争学习begininitialize学习率η,训练样本数n,类别数

7、c,迭代次数k,初始权值w1,…,wc;归一化所有训练样本和权值;do随机选取一个x计算胜元:权值修正:权值归一化:until在k次重复中w无显著改变;returnw1,…,wc竞争学习过程10.6自组织特征映射自组织特征映射也称为Kohonen网络(SOFM,Self-OrganizingFeatureMap);SOFM采用的仍然是竞争学习规则,与竞争网络不同的是竞争网络每次只对一个胜元的权值进行调整,而SOFM则对以胜元为中心的一个邻域内的神经元均进行调整;经过学习后的网络会

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。