欢迎来到天天文库
浏览记录
ID:32290329
大小:3.16 MB
页数:100页
时间:2019-02-02
《22_24邻近度和聚类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、LOGO第八课(第22-24课时)邻近度和聚类•从数据挖掘角度看数据•数据点之间的距离•KNN•聚类分析方法及评价数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)前情回顾分析单个变量:各种方法分析多个变量:各种方法回归分析和广义线性模型:确认变量之间的关系–解释和预测分类分析:预测类别型因变量,有监督学习基亍重抽样:–统计量的显著性检验和区间估计(permutationtest,Bootstrap)–增强训练效果和评价的稳定性(CV,Bagging,Boost..)模型选
2、择:–拟合度,查准率,查全率,ROC数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)预测与分类:仸务描述理解预测和分类的目的了解各种预测和分类算法掌握如何根据因变量和自变量的类型来确定模型和算法掌握对模型的评价方法理解和了解对数据集的操作数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据挖掘视角的数据数据集:用属性描述的数据对象的集合属性Attributes属性:刻画对象基本特征–如:眼睛的颜色、温度TidRefundMaritalTaxableSt
3、atusIncomeCheat–属性=变量、字段、特性,or特征、1YesSingle125KNo维2NoMarried100KNo数据对象:记录,点,案例,样本,3NoSingle70KNo事件、实例4YesMarried120KNo5NoDivorced95KYes对象teacoayplabascogamnwlostimeseasObjects6NoMarried60KNomchllreeitouotn7YesDivorced220KNo8NoSingle85KYesDocument130502
4、602029NoMarried75KNoDocument2070210030010NoSingle90KYesDocument3010012203010数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据挖掘视角看数据数据分析:–关心变量本身,以及变量之间的关系(列)–不符合预先假设模式的:异常点数据挖掘:–目的为发现模式–开始关心数据点(行)–甚至关心点:如,某个人是否会喜欢某本书?数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度数据的相似性和相
5、异性–Similarity相似度:度量对象之间的相似程度•[0,1]:越大表示越相似–Dissimilarity相异度(距离):度量对象的差异程度•最小为0,表示两者相同•最大无上限–Proximityreferstoasimilarityordissimilarity–邻近性(泛指相似性和相异性)数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度pandqaretheattributevaluesfortwodataobjects.数据分析和数据挖掘中国大数据在线教育领
6、导者by郭鹏程(绿树@小象)数据的邻近度欧几里得距离n2dist(pkqk)k1一般需要对不同属性进行标准化(规范化)数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度闵可夫斯基距离1ndist(
7、pq
8、r)rkkk1–r=1.Cityblock(曼哈顿,Lnorm)距离.1–r=2欧几里得距离–r“supremum”(Lnorm,Lnorm)距离max•两个向量间的最大距离数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的
9、邻近度数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度Binary向量–对象p,q只有0,1属性•M01=p为0且q为1的属性个数•M10=p为1且q为0的属性个数•M00=p为0且q为0的属性个数•M11=p为1且q为1的属性个数–SimpleMatchingCoefficients•(M+M)/(M+M+M+M)110001101100–JaccardCoefficients•(M)/(M+M+M)处理非对称的二元属性(稀疏数11011011据)数据分析和数据挖掘中
10、国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度SMCv.s.Jaccard:–p=1000000000–q=0000001001•M01=2•M10=1•M00=7•M11=0–SMC=(M11+M00)/(M01+M10+M11+M00)=(0+7)/(2+1+0+7)=0.7–J=(M11)/(M01+M10+M11)=0/(2+1+0)=0数据分析和数据挖掘中国大数据在线教育领导者by郭鹏程(绿树@小象)数据的邻近度余弦相似性–如果
此文档下载收益归作者所有