-?@&%!"!'(!!!)!*"&%!"#$%+%%*(+%*#,-./0-/1/-2034356708905.0//:.05!#&%!"#,-."> -?@&%!"!'(!!!)!*"&%!"#$%+%%*(+%*#,-./0-/1/-2034356708905.0//:.05!#&%!"#,-." />
欢迎来到天天文库
浏览记录
ID:58139519
大小:1.71 MB
页数:5页
时间:2020-04-24
《基于近邻决策域内局部分布密度的改进KNN算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第!"卷#第$%期#&%!"年!%月科#学#技#术#与#工#程#;34-?@&%!"!'(!!!)!*"&%!"#$%+%%*(+%*#,-./0-/1/-2034356708905.0//:.05!#&%!"#,-.<1/-2<905:5<基于近邻决策域内局部分布密度的改进GSS算法!!!&$"史#佳#董#昱#魏宏杰#景晓春#史#蕾!&"兰州交通大学自动化与电气工程学院$兰州($%%(%%南车株洲电力机车研究所有限公司$株洲"!&%%!%$"中铁十八局集团第一工程有限公司敦格项目部$敦煌($'&%&%甘肃省高速公路管理局$兰州($%%!%#摘#要
2、#经典c==算法和以往的基于密度的改进c==算法都缺乏对训练样本数据分布的有效性描述!因此会间接影响到分类结果#提出一种基于测试样本近邻决策域内局部密度的改进c==算法!通过计算各不同类别在近邻决策域内的局部密度!并同时考虑到类间偏斜度的存在!得到各类密度补偿系数和倾斜度平衡因子!从而达到削弱高数量)大密度类别!增强小数量)低密度类别的目的#在iJZ数据集上的实验结果表明!该改进算法在保持经典c==算法分类准确度的基础上!能够提高分类的召回率和N!+F/7PH:/指标#关键词#c==##局部密度##决策域##类偏斜中图法分类号#1D$%!<'%####文献标志码#E)!
3、*##6近邻算法由J3e/:和C7:?于!A'(年提出$算法具有趋强弃弱的特点$对经典c==算法进行了)!&*是一种非参数的基于实例的分类方法$因具有简单改进%刘海峰$等在传统c==算法中引入权重系)!$*有效$分类准确度高$鲁棒性好等优点被列为十大数数对高密度类别样本的重要程度进行抑制'但)&*据挖掘算法之一$目前已在诸多领域有所应用'是上述这些算法研究的侧重点只放在不同类的类间文献)$!**中将6近邻算法应用在故障诊断中$在倾斜度问题上$而实际上同一个类内部样本数据的文本和网页的自动分类领域$c==算法应用分布情况也在某种程度上影响着分类器的性能')'$(*广泛'现
4、针对分类时存在类间偏斜和类内样本数据分c==算法首先找到与待分类样本距离最近的布密度不均匀的现象展开讨论$并在此基础上提出6个近邻邻居$然后根据这6个邻居的类别$采用多基于决策域内局部密度的改进c==算法$最后应用数投票表决的决策规则确定待分类样本所属类iJZ标准数据集对该算法进行测试$结果表明$该算))*别'然而$实际分类当中$由于不同的样本数据法能够提高分类器的分类性能$该算法可行'分布呈现不规则性以及数据分布的复杂性$可能导$%GSS算法及样本分布对GSS算致使用经典c==算法时出现样本被错误分类的情况$进而导致分类器性能下降)A*'针对上述造成法的影响c==算法
5、分类精度下降的问题$不少学者提出了相$($%经典GSS算法关改进方法'李陆荣$等在文献)!%*中提出了一种给定训练数据集为基于密度的c==分类器训练样本裁剪方法$降低1:7.0&3"G$$2N#$&!$&$2$A%N&!$&$2$@4c==算法的计算量的同时使样本的分布尽量均匀$式中"G$$2N#表示一组样本对$G$&"G$!$G$&$2$但是删减训练样本会损失一部分分类信息$不利于1G$L#是第$组训练样本$为L"L(!#维欧式特征提高分类精度%文献)!!*中就c==分类器类倾斜空间的一个向量%2N是样本G$的类别'现象展开研究$提出了一种处理类倾斜问题的方法$1当
6、出现待分类样本E&"E!$E&$2$EL#时$首取得较好的分类效果%沈志斌$等人针对经典c==先计算该样本与各训练样本之间的相似度函数P.F"E$G$#$L维欧式空间通常使用欧氏距离来构&%!"年*月&(日收到国家自然科学基金"'!!'"%!%#资助)!"$!**第一作者简介&史#佳$硕士研究生'研究方向&模式识别(交通信成相似度函数'接着找出与待分类样本相似息工程及控制'9+F7.4&P2.g.7y/F7.4I!'$@-3F'度最大的.个样本$最后将未知类别样本E的类别!通信作者简介&董#昱$教授'研究方向&交通信息工程及控制'-47PP"E#决定为.个近邻样本类别较
7、多的那一类$即*)科#学#技#术#与#工#程!"卷?"E$2N#&$)P.F"E$G$#U"G$$2N#*'内的密度是不同的'图!是一个二维空间的二分类G$)c==问题'可以看到$本应分别属于类别&和类别!的-47PP"E#&7:5F7G3?"E$2!#$?"E$2$?"E$2$#$待分类样本C和J$由于两种类别分别在C和J的2$?"E$2@#4近邻决策区域内的密度不同$产生了大密度占优的式中#N&!$&$2$@$U"G$$2N#是类别属性函数$现象$使得C和J的类别被错分'当G$)2N时U"G$$2N#&!$否则U"G$$2N#&%
此文档下载收益归作者所有