基本概念及kMeans算法-ppt课件.ppt

基本概念及kMeans算法-ppt课件.ppt

ID:59774927

大小:546.00 KB

页数:27页

时间:2020-11-23

基本概念及kMeans算法-ppt课件.ppt_第1页
基本概念及kMeans算法-ppt课件.ppt_第2页
基本概念及kMeans算法-ppt课件.ppt_第3页
基本概念及kMeans算法-ppt课件.ppt_第4页
基本概念及kMeans算法-ppt课件.ppt_第5页
资源描述:

《基本概念及kMeans算法-ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘王成(副教授)华侨大学计算机科学与技术学院主要内容实例、特征及特征向量差异度度量k-均值算法实例输入数据集中的每一条数据都是一个样本(example),而我们通常用更专业的术语“实例”(instance)来表示例如,下表中一共有6个实例注:各个数字代表喜欢的程度,范围是0-10,0表示不喜欢,10表示非常喜欢特征及特征向量特征(feature)也称作属性(attribute)每一个单一的、独立的实例是由一组固定的和预先定义的特征或属性作为输入提供给机器学习的实例就好比是数据库表中的行,而属性是列特征及特征向量学生B的特征

2、是?学生B:(4,8,0,1)对零食喜欢程度对韩剧喜欢程度对篮球喜欢程度对游戏喜欢程度特征值学生B的特征向量4维特征向量特征值的类型数值(numeric)属性实数或整数值,例如前面学生成绩例子中的学生成绩属性即是一个数值属性。分类(categorical)属性从一个预先定义的有限的可能值的集合中取值;有时也称作名目(norminal)属性、枚举(enumerated)属性,或离散(discrete)属性。这类属性值是一些独特的符号,作为标签或名字使用。例如,天气属性是一个分类属性,它的值只能是晴、多云、雨等。布尔(boolean

3、)属性分类属性的一个特例,只有true和false,或yes和no两个可选值。如何让程序自动对学生分组?如果两个学生的爱好比较类似,例如都喜欢运动,可以分为一组如果有一种方式来度量两个学生的爱好差异程度,那我们可以将差异小的学生分为同一组,而将差异大的分为不同组主要内容实例、特征及特征向量差异度度量k-均值算法如何度量各个学生的差异程度?考虑二维的情况D(0,2)B(4,8)C(0,0)A(8,8)E(1,0)F(6,1)B和D的差异可以用BD之间的距离来表示如何度量N维特征向量之间的差异?欧氏距离欧氏距离(欧几里得距离,Euc

4、lideandistance)N维空间内任意两点x(x1,...xn)和y(y1,...yn)之间的距离为:欧氏距离d(A,B)=d(A,D)=d(C,E)=?小练习:欧氏距离为什么可以使用欧氏距离来体现学生之间的差异?用于体现学生数据之间的差异的距离公式需要满足如下条件:1.计算得到的距离不能为负数2.学生特征数据差异越大,距离也要越大,反之,差异越小,距离也要越小3.当且仅当学生特征数据相同时,距离才为0,否则大于04.学生A和学生B的距离应等于学生B和学生A的距离(对称性)还有其它度量相异度的方法吗?曼哈顿距离闵可夫斯基距

5、离欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在p=2和p=1下的特例主要内容实例、特征及特征向量差异度度量k-均值算法k-均值算法(k-Means)C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNaïveBayesCART十大数据挖掘算法之一一种聚类算法,属无监督学习k-均值算法(k-Means)聚类算法将数据点分为多个簇(cluster)k-menas算法中,簇的中心叫做簇质心或中心点(centroid),质心不一定是一个真实存在的数据点把每个簇想像成一块有质量的物体,质心即这块物体的质

6、量中心k-means要求事先指定数据要分为几组,例如可指定分为3组,这里的3即算法名称中k的含义,此时k=3图:4个簇及其质心k-均值算法(k-Means)1.随机挑选3个点作为初始簇质心(centroid)指定k=3(即要将数据点分成3组)2.遍历所有点,各自加入距离最近的簇3.调整各个簇的的质心4.回到第2步中止条件:簇不再发生变化第2步如何找到最近的簇?遍历各簇质心,计算欧氏距离,距离最小的即最近的第3步如何调整质心?取簇中各点的算术平均值作为新质心的坐标即可++++++(1,4)(6,0)(3,2)(0,8)(6,4)(

7、8,4)(1,8)(8,7)(6,8)(7,9)(7,8)(1.25,5.5)(6.67,2.67)(5.75,2.5)++(0.67,6.67)如何评价聚类结果的质量?好的聚类结果的簇内数据点比较紧凑,簇间相距大即簇内中各数据点离质心的距离都比较小可使用误差平方和(SSE,SumofSquaredErrors)准则函数来评价一个簇的误差平方和即簇内各点到质心欧式距离的平方和:其中p表示簇中的点,X是簇内点的集合,distance(p,centroid)即点p到簇质心的距离聚类结果的SSE即各个簇的SSE之和,其值越小表示聚类质

8、量越好改进1:归一化结果被“工资”主导了!考虑对如下学生兴趣数据进行聚类改进1:归一化为什么结果被“工资”主导了?例如x2,y2的差值很大,而x1,y1等差异很小,则计算得到的欧氏距离几乎就约等于解决方案:归一化v为原特征值,v'为归一化后的值,vmin为样本最

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。