欢迎来到天天文库
浏览记录
ID:62068331
大小:1.01 MB
页数:23页
时间:2021-04-14
《最新EM算法主要思想教学讲义ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、EM算法主要思想内容概述1、背景简介2、问题描述3、EM算法原理4、结论与讨论1、背景简介EM是一种聚类算法聚类:将数据集中的数据分成若干类(簇),使类内相似度尽可能大,类间相似度尽可能小。聚类算法:基于划分的方法(K均值)、层次聚类、基于密度的方法、基于网格的方法、基于模型的方法。2、问题描述(续)为了使问题简化,我们求的最大值。这里由于有和的对数,求导后形式复杂,因此不能使用一般的求偏导并令导数为零的方法。3、EM算法原理简化的问题:某混合高斯分布一共有k个分布,并且对于每一个观察到的x,如果我们同时还知道它是属于k中哪一个分布的,则求各个参数并不是件难事。比如用z来表示每一个
2、高斯分布,那么我们的观察集不仅仅是{x1,x2,x3…},而是{(x1,z2),(x2,z3),(x3,z1)…}而现实往往是:我们不知道每个x属于哪个分布,也就是说z是我们观察不到的,z是隐藏变量。3、EM算法原理(续)假定可以观察到Z,问题变为求下式最大值但是Z是观察不到的,因此EM算法假设Z的分布依据上一轮的估计参数确定,求取上式期望的最大值。定义:对上式使用拉格朗日乘数法可得求偏导并令值为零分别得:其中,可由下式求得。EM算法的具体流程为重复执行以下两个步骤直到收敛:第一步称为E步骤,是根据参数初始值或上一次迭代所得结果值来计算似然函数关于条件分布的期望:第二步称为M步骤,
3、是将似然函数最大化以获得新的参数值,用更新使最大化。4、结论与讨论1)EM算法比K-means算法计算复杂,收敛也较慢,不适于大规模数据集和高维数据,但比K-means算法计算结果稳定、准确。(数学手段加快收敛)2)需要已知样本聚类数目(?)3)对初值敏感(可以多运行几次解决/密度/最大最小原则/模糊/…)4)爬山技术,局部最优解(可以多运行几次解决?)5)对孤立点敏感,有噪音时效果差(可能性聚类?)我的想法:1)运用模糊的思想2)可否以下式为目标函数:(效果较k均值差)Lead-inActivity1Enlargeyourvocabularyasthma哮喘pneumonia肺炎
4、diabetes糖尿病obesity肥胖症heartdisease心脏病stroke中风arrhythmia心律不齐indigestion消化不良gastritis胃炎appendicitis盲肠炎hepatitis肝炎dermatitis皮炎flu流感diarrhea痢疾vaccinate打疫苗endemic水土不服sprain扭伤scalding烫伤graze擦伤scratch搔挠trauma外伤bruise淤伤fracture骨折dislocation脱臼tinnitus耳鸣trachoma沙眼colourblindness色盲nearsightedness/myopia近视
5、astigmatism散光gingivitis牙龈炎cavity龋齿fever发烧discomfort/disorder不适malnutrition营养不良incubation潜伏期asthenia虚弱poisoning中毒fatigue疲劳heatstroke中暑itching发痒ache/pain痛tetanus破伤风nightsweat盗汗chill打冷颤pale脸色发白shuddering发抖inflammation炎症acute急症chronic慢性病congenital先天性病nausea恶心vomit呕吐Aerobicexercise有氧运动Bodybuilding健
6、身Feeble虚弱的Flabby不结实的,松弛的Foodadditive食品添加剂Foodcolorant食品色素Healthcare保健Healthfacilities卫生设施Junkfood垃圾食品Low-fatfood低脂食品Mineral矿物质Obese肥胖的Pesticide农药Plump丰满的Robust健康有活力的Skinny皮包骨的Slender瘦弱的Slim苗条的Sound健康的Staplefood主食Stout结实的,矮胖的Sturdy强健的Tubby矮胖的Vegetarian素食者
此文档下载收益归作者所有