knn最近邻居分类器测试

knn最近邻居分类器测试

ID:35166019

大小:254.50 KB

页数:14页

时间:2019-03-20

knn最近邻居分类器测试_第1页
knn最近邻居分类器测试_第2页
knn最近邻居分类器测试_第3页
knn最近邻居分类器测试_第4页
knn最近邻居分类器测试_第5页
资源描述:

《knn最近邻居分类器测试》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、KNN最近邻居分类器实验测试1三种数据集在UCI上选择三种数据集。分别是Ecoli-DataSet大肠杆菌数据集、Yease-DataSet酵母数据集、Abalone-DataSet鲍鱼数据集。1.1Ecoli数据集Ecoli数据集,最初用于测试大肠杆菌中蛋白质的分部。数据集中有336中大肠杆菌数据,用于分类。其作者和贝叶斯算法的作者是同一人。该数据集中的一共有8个属性来描述酵母,其中的7个属性用于预测,1个属性是类型cp(cytoplasm)143im(innermembranewithoutsignalsequence)

2、77pp(perisplasm)52imU(innermembrane,uncleavablesignalsequence)35om(outermembrane)20omL(outermembranelipoprotein)5imL(innermembranelipoprotein)2imS(innermembrane,cleavablesignalsequence)2WebSite:http://archive.ics.uci.edu/ml/datasets/Ecoli1.2Yeast数据集Yeast数据集,和Ecoli数

3、据集都是用于蛋白质的测试,不同的是,Yeast是酵母的数据,而Ecoli则是大肠杆菌的数据。在yeast数据集中,对于酵母的描述包含9个属性,其实的8个用于预测,1个属性是类型。CYT(cytosolicorcytoskeletal)463NUC(nuclear)429MIT(mitochondrial)244ME3(membraneprotein,noN-terminalsignal)163ME2(membraneprotein,uncleavedsignal)51-14-ME1(membraneprotein,cleav

4、edsignal)44EXC(extracellular)37VAC(vacuolar)30POX(peroxisomal)20ERL(endoplasmicreticulumlumen)5WebSite:http://archive.ics.uci.edu/ml/machine-learning-databases/yeast1.1Abalone数据集Abalone数据集是关于鲍鱼的数据集。该数据集,通过对鲍鱼进行物理的测量,预测鲍鱼的年龄。其中包括4177个实例。包括8个属性,包括给定的属性名,属性类别,测量单元。本数据

5、集可以用于连续数据测量和离散数据分类。NameDataTypeMeas.Description-----------------------------SexnominalM,F,andI(infant)LengthcontinuousmmLongestshellDiametercontinuousmmperpendiculartolengthHeightcontinuousmmwithmeatinshellWholeweightcontinuousgramswholeabaloneShuckedweightcontinuo

6、usgramsweightofmeatVisceraweightcontinuousgramsgutweightShellweightcontinuousgramsafterbeingdriedRingsintegergivestheageinyears对数据集中的数据,进行简单的数据统计分析,结果见表1:表1Abalone数据集数据统计分析LengthDiamHeightWholeShuckedVisceraShellRingsMin0.0750.0550.0000.0020.0010.0010.0021Max0.8150

7、.6501.1302.8261.4880.7601.00529Mean0.5240.4080.1400.8290.3590.1810.2399.934SD0.1200.0990.0420.04900.2220.1100.1393.224Correl0.5570.5750.5570.5470.5400.4240.5040.628在之前的文献中,针对此类数据集。有作者做了不同算法分类的比较,结果如下图1:-14-图1Abalone数据集不同算法分析1KNN最近邻居分类器原理1.1算法原理KNN(kNearestNeighbors

8、)算法又叫k最临近方法。K最近邻(K-NearestNeighbor,KNN)分类算法可以说是整个数据挖掘分类技术中最简单的方法。所谓K最近邻,就是K个最近的邻居,说的是每个样本都可以用它最接近的K个邻居来代表。假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。