一种改进的KNN文本分类.pdf

一种改进的KNN文本分类.pdf

ID:52768884

大小:1.40 MB

页数:3页

时间:2020-03-30

一种改进的KNN文本分类.pdf_第1页
一种改进的KNN文本分类.pdf_第2页
一种改进的KNN文本分类.pdf_第3页
资源描述:

《一种改进的KNN文本分类.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、1422012,48(2)ComputerEngineeringandApplications计算机工程与应用一种改进的KNN文本分类钟将,刘荣辉ZHONGJiang,LIURonghui重庆大学计算机学院,重庆400044CollegeofComputerScience,ChongqingUniversity,Chongqing400044,ChinaZHONGJiang,LIURonghui.ImprovedKNNtextcategorization.ComputerEngineeringandApplications,2012,48(2):142-144.Abstra

2、ct:Intextcategorization,theproblemsoflargefeaturedimensionandsamplesdatadistributedimbalancedinfluencetheclassi-fiedresults.Tothisproblem,thispaperputsforwardanimprovedKNNmethod.Usinglatentsemanticanalysistoreducedimensionali-tyoftextfeaturematrix.UsingimprovedKNNmethodbasedondensitytoreal

3、izetextcategorization.Theexperimentalresultsshowthattheproposedmethodcaneffectivelyimprovethetextcategorizationprecision.Keywords:featurereduction;latentsemanticanalysis;K-NearestNeighbor(KNN);textcategorization摘要:在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空

4、间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。关键词:特征降维;潜在语义分析;K-最近邻法;文本分类DOI:10.3778/j.issn.1002-8331.2012.02.041文章编号:1002-8331(2012)02-0142-03文献标识码:A中图分类号:TP18随着Internet的迅猛发展,各类文本信息快速增长,如何在y(dc)是类别属性函数,d属于c时,y(dc)=1;当dijijiji错综复杂的海量文本信息中获取最有用的信息始终都是信息不属于c时,y(dd)=0。ji处理的热点。自动文本分

5、类作为文本信息挖掘的重要技术,则最后的分类决策函数为:在提高信息利用的有效性和准确性上都具有广阔的应用前景f=argmaxc(p(dc))(3)jj和重要的现实意义。目前,较为常用的文本分类算法包括贝KNN方法作为一种无参数的简单有效的文本文类方法,叶斯方法(Bayes),神经网络法(NeuralNetwork),决策树(DT),在基于统计的模式识别中性能突出,可以取得较高的分类准支持向量机(SVM)和K-最近邻法(K-NearestNeighbor,KNN)确率和召回率[1]。但是KNN也存在一定的不足:(1)文本特征等方法。其中,大多数方法都是采用向量空间模型(Vec

6、tor向量的高维性,使得算法的时间复杂度和空间复杂度较高,计SpaceModel,VSM)来表示文本,KNN方法作为一种无参数算开销很大,且对于巨大维数的文本特征向量,对分类起作用的简单有效的文本文类方法,其优良的准确率和召回率使得[1]的维数往往小于文本本身的维数,那些对文本分类意义不大其成为文本分类中常用的分类器之一。因此针对KNN分类方法性能上不足的改进也日益成为人们关注的热点[2]。的维数有可能会成为噪声,从而影响分类的准确度。(2)当训练样本数据分布不均衡甚至严重倾斜时,KNN分类器的效果会受到严重影响[3-4]。而且在实际应用中,数据分布不均衡的1KNN文本分类

7、算法现象是很常见的,大类别样本在密度上占有优势从而影响分KNN算法是一种基于实例的学习方法。KNN算法对一类准确度。篇待测试文本d进行分类的过程是:首先计算d与训练样本针对上述的第一个不足,利用潜在语义分析(LatentSemantic集中每个文本的文本相似度,相似度一般使用欧式距离测量,依据文本相似度找到最相似的K个最近的训练文本,把这K个Analysis,LSA)通过对词—文档矩阵的奇异值分解(Singular样本的类别作为d的候选类别,然后根据待分类文本d与这KValueDecomposition,SVD)计

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。