基于属性信息熵的knn算法改进研究

基于属性信息熵的knn算法改进研究

ID:33759195

大小:703.12 KB

页数:36页

时间:2019-02-28

基于属性信息熵的knn算法改进研究_第1页
基于属性信息熵的knn算法改进研究_第2页
基于属性信息熵的knn算法改进研究_第3页
基于属性信息熵的knn算法改进研究_第4页
基于属性信息熵的knn算法改进研究_第5页
资源描述:

《基于属性信息熵的knn算法改进研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、漳州师范学院硕士学位论文基于属性信息熵的KNN算法改进研究姓名:童先群申请学位级别:硕士专业:计算机应用技术指导教师:周忠眉20100601摘要摘要分类是数据挖掘任务之一,KNN算法是一种思路简单,易于实现的分类算法。KNN根据未知样本的K个近邻样本来预测未知样本的类别,近邻样本的选择是根据一定的距离公式判定的。距离的定义直接影响K个近邻样本的选取,最终影响分类的准确率。许多学者都对距离进行研究,但基本都没有考虑到属性值对类别的重要性。信息熵可用来度量属性值对类别的重要性,信息熵越小,此属性值对类别的重要性越大。本文首先采用信息熵度量属性值的重要性,给出

2、一种新的基于属性值信息熵的距离定义,同时投票时综合考虑各类近邻样本的平均距离及个数,提出了一种基于属性值信息熵的KNN改进算法Entropy-KNN。蘑菇数据集上实验表明Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。其次,为了进一步提高分类的准确率,提出一种基于层次聚类法的Entropy-KNN算法,采用层次聚类法对每类的训练样本进行聚类后,选取与测试样本最接近的聚类作为新的训练集,最后对测试集进行Entropy-KNN算法分类。蘑菇数据集上实验表明此算法进一步提高Entropy-KNN算法的准确率。最后,为了加快分类的速

3、度,提出基于属性约简的Entropy-KNN算法,先对训练集进行属性约简,接着在测试集使用Entropy-KNN算法进行分类。关键词:分类;KNN算法;信息熵;距离;IAbstractAbstractClassificationisoneofresearchdirectionsofdatamining.TheKNNalgorithmisclearandeasyclassificationalgorithm.TheclasslabeldecisionoftheunknownsamplecomesfromtheKnearestneighbors,whichi

4、sdecidedbythedistance.ThedefinitionofthedistanceisdirectlyrelatedoftheselectionoftheKnearestneighbors,andeffectstheKNNclassificationaccuracy.ManypeoplewereabsorbedintheresearchoftheKNNdistance,whilefewpeopleconsideredtherelationbetweentheclasslabelandtheimportantattributevalue.In

5、formationentropycanmeasuretheclassficationimportantceoftheattributevalue.Ifitisless,thentheattributevalueismoreimportant.Inthepaper,animprovedalgorithmEntropy-KNNbasedontheinformationentropyofanattributevalueisproposed.Firstly,adistanceofthetwosamplesisdefinedastheaverageinformat

6、ionentropyofthesameattributevalues.Andthenwedecidetheclasslabelofthetestsamplebytheaveragedistanceandthenumbersontherespectiveclass.TheexperimentresultsonthemushroomdatashowthatourapproachhasmuchbetterthantraditionalKNNandKNNwithweighteddistance.Thenamethodbasedonhierarchicalaggl

7、omerativeclusteringandEntropy-KNNispresentedforthehigherclassificationaccuracy.Afterrepresentativesamplessetoftrainingsetsareacquiredbasedonthehierarchicalclusteralgorithm,therepresentativesamplessetistakenastheinitialsetoftheEntropyKNNalgorithmtofurthermaintain.Theexperimentresu

8、ltsonthemushroomshowthatourapproachhasbe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。