22_24邻近度和聚类

22_24邻近度和聚类

ID:32290329

大小:3.16 MB

页数:100页

时间:2019-02-02

22_24邻近度和聚类_第1页
22_24邻近度和聚类_第2页
22_24邻近度和聚类_第3页
22_24邻近度和聚类_第4页
22_24邻近度和聚类_第5页
资源描述:

《22_24邻近度和聚类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、LOGO第八课(第22-24课时)邻近度和聚类•从数据挖掘角度看数据•数据点之间的距离•KNN•聚类分析方法及评价数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)前情回顾分析单个变量:各种方法分析多个变量:各种方法回归分析和广义线性模型:确认变量之间的关系–解释和预测分类分析:预测类别型因变量,有监督学习基亍重抽样:–统计量的显著性检验和区间估计(permutationtest,Bootstrap)–增强训练效果和评价的稳定性(CV,Bagging,Boost..)模型选

2、择:–拟合度,查准率,查全率,ROC数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)预测与分类:仸务描述理解预测和分类的目的了解各种预测和分类算法掌握如何根据因变量和自变量的类型来确定模型和算法掌握对模型的评价方法理解和了解对数据集的操作数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据挖掘视角的数据数据集:用属性描述的数据对象的集合属性Attributes属性:刻画对象基本特征–如:眼睛的颜色、温度TidRefundMaritalTaxableSt

3、atusIncomeCheat–属性=变量、字段、特性,or特征、1YesSingle125KNo维2NoMarried100KNo数据对象:记录,点,案例,样本,3NoSingle70KNo事件、实例4YesMarried120KNo5NoDivorced95KYes对象teacoayplabascogamnwlostimeseasObjects6NoMarried60KNomchllreeitouotn7YesDivorced220KNo8NoSingle85KYesDocument130502

4、602029NoMarried75KNoDocument2070210030010NoSingle90KYesDocument3010012203010数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据挖掘视角看数据数据分析:–关心变量本身,以及变量之间的关系(列)–不符合预先假设模式的:异常点数据挖掘:–目的为发现模式–开始关心数据点(行)–甚至关心点:如,某个人是否会喜欢某本书?数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度数据的相似性和相

5、异性–Similarity相似度:度量对象之间的相似程度•[0,1]:越大表示越相似–Dissimilarity相异度(距离):度量对象的差异程度•最小为0,表示两者相同•最大无上限–Proximityreferstoasimilarityordissimilarity–邻近性(泛指相似性和相异性)数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度pandqaretheattributevaluesfortwodataobjects.数据分析和数据挖掘中国大数据在线教育领

6、导者by郭鹏程(绿树@小象)数据的邻近度欧几里得距离n2dist(pkqk)k1一般需要对不同属性进行标准化(规范化)数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度闵可夫斯基距离1ndist(

7、pq

8、r)rkkk1–r=1.Cityblock(曼哈顿,Lnorm)距离.1–r=2欧几里得距离–r“supremum”(Lnorm,Lnorm)距离max•两个向量间的最大距离数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的

9、邻近度数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度Binary向量–对象p,q只有0,1属性•M01=p为0且q为1的属性个数•M10=p为1且q为0的属性个数•M00=p为0且q为0的属性个数•M11=p为1且q为1的属性个数–SimpleMatchingCoefficients•(M+M)/(M+M+M+M)110001101100–JaccardCoefficients•(M)/(M+M+M)处理非对称的二元属性(稀疏数11011011据)数据分析和数据挖掘中

10、国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度SMCv.s.Jaccard:–p=1000000000–q=0000001001•M01=2•M10=1•M00=7•M11=0–SMC=(M11+M00)/(M01+M10+M11+M00)=(0+7)/(2+1+0+7)=0.7–J=(M11)/(M01+M10+M11)=0/(2+1+0)=0数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度余弦相似性–如果

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。