K-最临近分类算法论文

K-最临近分类算法论文

ID:24035225

大小:362.50 KB

页数:43页

时间:2018-11-12

K-最临近分类算法论文_第1页
K-最临近分类算法论文_第2页
K-最临近分类算法论文_第3页
K-最临近分类算法论文_第4页
K-最临近分类算法论文_第5页
资源描述:

《K-最临近分类算法论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、K-最临近分类算法K-NearestNeighbour课程名称数据仓库与数据挖掘 1摘要K-最临近分类算法(kNN)是著名的模式识别统计学方法,是最好的文本分类算法之一,在机器学习分类算法中占有相当大的地位,是最简单的机器学习算法之一。随着当今社会,计算机的普遍使用,出现了连绵不断的文本文件,如何对这些毫无逻辑、毫无层次的文件进行分门别类的整理,做到井井有条,层次鲜明呢? 文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类算法,自动的对这些文件进行遍历,从而实现分门别类。这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间

2、,工作人员可以去做更多有意义的事情。KNN算法的核心思想是,通过计算每个训练样本到待分类数据的距离,取和待分类数据距离最近的K个训练样本,K个样本中哪个类别的训练样本占多数,则待分类数据就属于哪个类别。本文旨在利用K-最临近分类算法进行数据挖掘。关键词:kNN算法;文本分类;分类算法;数据挖掘;ABSTRACTKNN algorithm, a famous statistical method of pattern recognition,which is one of the best algorithms for dealing with text categorization, is 

3、playing an important role in machine learning classification algorithm, and it is one of the simplest algorithms in machine learning. With today's society, the widespread use of computers, the continuous of the text file, how about these no logic, no level of sort, classify files on do in perfect o

4、rder, hierarchy and bright?Text automatic classification is according to the above situation, using the machine, through a certain constraint condition and some classification algorithm, automatic to traverse these files, so as to realize classify. So using machines instead of people to "read", to 

5、"finish", replacing workers with machines not only reduce the burden of the staff, and greatly saves time and staff do more meaningful things.Thecore idea of KNN is to be classified, the distance ofdata calculated for each training sample, and the data from the nearest K training samples, which cat

6、egory K sample training samples inthe majority, are to be classified data belongs to which category.Thisarticleisforthepurposeof dataminingusingK-NearestNeighbour.Keywords:KNN algorithm,Text classification,Classification algorithms,datamining1.研究背景及现状国际权威的学术组织theIEEEInternationalConferenceonDataMin

7、ing(ICDM)2006年12月评选出了数据挖掘领域的十大经典算法:C4.5,k-Means,SVM,Apriori,,EM,PageRank,AdaBoost,kNN,NaiveBayes,,andCART。国外对于文本分类的研究开展较早,20世纪50年代末,H.P.Luhn[3]对文本分类进行了开创性的研究将词频统计思想应用于文本分类,1960年,Maro发表了关于自动分类的第一篇论文,随后,K.Spa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。