使用knn model对文本进行自动分类

使用knn model对文本进行自动分类

ID:26984278

大小:582.50 KB

页数:14页

时间:2018-11-30

使用knn model对文本进行自动分类_第1页
使用knn model对文本进行自动分类_第2页
使用knn model对文本进行自动分类_第3页
使用knn model对文本进行自动分类_第4页
使用knn model对文本进行自动分类_第5页
资源描述:

《使用knn model对文本进行自动分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、...使用kNNModel对文本进行自动分类UsingkNNmodelforautomatictextcategorizationSoftComput(2006)10:423–430GongdeGuo·HuiWang·DavidBellYaxinBi·KieranGreer摘要kNN分类器和Rocchio分类器,在这两个著名的基于相似度学习方法的文本分类上做了一项研究,在鉴别了每项技术的短处和长处后,提出一个基于kNN模型的新分类器,称为kNNModel,它结合了kNN和Rocchio的优点。文章描述了这个文本分类的原型,它同时实现了kNNModel、kNN和Rocchio。在两个

2、常用的文本集(20-newsgroup和Reuters-21578数据集)上对不同的方法执行的实验性评价,实验结果显示所提出的基于kNNModel的方法表现超过了kNN和Rocchio,因此在一些应用上也是对kNN和Rocchio的一个不错替代方法。关键字kNNModel,kNN,Rocchio,Textcategorization,Performance1介绍文本分类的任务是将文本文件指派为许多合适的类别。这种分类处理有很多应用,例如documentrouting,文档管理,文档传播。在传统的文档分类中,每个进来的文档都要由基于内容的域专家手工分类,完成这个任务需要大量的人力。为

3、了促进文本分类的处理,就需要自动分类方案,其目标是建立可以用于将文本自动分类的模型。已经有很多方法应用于文本分类,如NaïveBayes盖然性分类器(NaïveBayesprobabilisticclassifiers)[2],决策树分类器(Decisiontreeclassifiers)[3],判断规则(Decisionrules)[4],回归方法(Regressionmethods)[5],神经网络(Neuralnetwork)[6],kNN分类器(kNNclassifiers)[5,7],支持向量机(SupportvectormachineSVM)[8,9],Rocchio分类器(

4、Rocchioclassifiers)[10,11]。在许多应用中,例如,动态挖掘大型网页仓储(largewebrepositories),这些方案的计算效率通常被作为关键因素被考虑,Sebastiani在他的文本分类研究中指出这一点[12]。在这些方法中,kNN和Rocchio被频繁的用到,并且它们都是基于相似度的(similarity-based)。kNN算法使用整个训练实例作为计算相似度的依据。对于一个要被分类的新文档dt离它最近的k个邻居被检索出来,这样形成dt的k个邻居,邻居间对dt的多数投票以决定它属于哪一类。然而,使用kNN,我们需要选择一个合适的k值,成功的分类非常依

5、赖于这个值。此外,kNN是一个懒惰的学习方法(lazylearningmethod),因为它不需要建立学习模型,并且所有的计算都几乎集中在分类阶段,这也阻止了它应用于效率要求较高的领域,如动态挖掘大型网页仓储。然而kNN在文本分类上的应用从很早[12]就开始了,并且被评价为在路透社新闻专线故事(一个基本数据集)上用于文本分类是最有效的方法。Rocchio方法在一定程度上可以处理这些问题。在它最简单的方式下,它通过总括实例对每个类别的贡献,使用泛化的实例(generalizedinstances......属于一个类别实例的平均权值形成这个类的一个泛化的实例)作为模型来代替整个训练实

6、例。这种方法高效并且容易实现,因为学习一个分类器基本上可以归结为求平均权值,对一个新实例进行分类仅需要计算新实例和泛化实例之间的内积。它是个基于相似度的算法,因为它使用这些泛化的实例作为计算基于内积的相似度。此外,Rocchio方法通过概括实例对每个类别的贡献能够在一定程度上处理噪声数据。例如,如果一个特征主要出现在一个特定的类的许多实例中,它在泛化的实例中将会对应一个较大的权值;同样,如果一个特征主要出现在其他类别的训练实例中,它在泛化的实例中权值将会趋于零[1]。因此,Rocchio方法可以在一定程度上过滤掉某些不相关的特征。另一方面,Rocchio分类器的一个缺点是它限制了前

7、提条件来设置线性可分的超平面,在这方面Rocchio算法比kNN算法[1]来的不给力。由Lametal.[1]提出的泛化的实例集算法(generalizedinstancesetalgorithm)以试图克服kNN算法和线性分类器的缺点。它的主要思想是算法为每个类构造了不止一个泛化的实例,而不像Rocchio方法那样在线性分类器中为每个类构建仅有一个泛化实例。但是这种方法仍然存在一些缺点,其中一个是合适的k值很难选取和被选择用来构造每个局部泛化实例的正例的顺序,因为泛

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。