欢迎来到天天文库
浏览记录
ID:58156199
大小:560.56 KB
页数:8页
时间:2020-04-25
《一种基于类平均相似度的文本分类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、一种基于类平均相似度的文本分类算法木谭学清周通罗琳(武汉大学信息管理学院武汉430072)摘要:【目的】在KNN算法基础上,提高文本分类的分类性能和分类速度。【方法】提出一种基于类平均相似度的分类算法,通过计算待分类文本与训练集各类别中所有文本相似度的平均值判断待分类文本的所属类别。【结果】实验表明,本文方法在复旦、Sogou平衡、非平衡语料上的MacroF1比KNN分类算法分别提高3.5%、3.2%和3.3%,分类时问分别为KNN算法的1/22、1/6和1/5。【局限】考虑到KNN算法的时间效率,实验数据的文本数较少。【结论】相对于KNN,基于类
2、平均相似度是一种适用于大规模文本分类的实用分类算法。关键词:类平均相似度向量空间模型KNN文本分类特征选择分类号:TP391的长文本(~1]Sogou、复旦公开语料库,其中Sogou文本1引言平均长度为685个字,复旦文本平均长度为2772个字),互联网的普及和计算机技术的高速发展,使得电需对每篇待分类文本与所有训练集文本的相似度进行子文档迅速增加,互联网在给用户带来海量信息的同排序,分类时间随着训练集文本数和文本长度的增加时,也给用户查找、过滤和管理这些海量信息带来困而平方级增加,因此KNN算法对大量长文本分类的时难。因此,文本分类技术的研究引起
3、了人们的持续关间效率非常低;KNN算法的分类性能受训练样本的分注。文本分类是指依据文本的内容,由计算机根据某布情况影响较大,算法计算相似度时以样本的特征项种自动分类算法把文本划分到预先定义好的类。随权重作为参数,实际应用中的数据往往是不平衡的,着文本信息量的快速增长,文本自动分类已成为信息因此当数据分布出现倾斜时,大类样本占据密度优势,检索、知识挖掘和管理等领域的关键技术和研究热点其包含的特征项权重值也随之增加,导致分类效果不之一。理想。目前,关于文本分类的研究已经取得很大的进展,近年来,国内外学者对文本分类算法做了大量研并提出一系列有效的分类算法
4、,如KNNfK—Nearest究,在经典分类算法的基础上,提出一些新的分类算Neighbors)算法[”、朴素贝叶斯算法、支持向量机[法或将其他领域的相关方法应用于文本分类,取得了(Suppo~VectorMachine,SVM)等,其中应用最广泛的一定的成果。其中,郑凤萍【4]针对传统VSM模型在文是KNN算法。KNN算法是一种非参数的分类技术,凭本特征表示方面的不足,构造了基于文本特征的模糊借其在分类过程中的稳定性和实现简单,成为国内外VSM模型,并在此基础上提出了基于RBF网络的文本学者的研究热点,在基于统计的模式识别中非常有效,自动分类方法
5、,该方法在特征提取时充分考虑了特征对于未知和非正态分布可以取得较高的分类准确率。项在文档中的位置信息,构造出模糊特征向量,使自但是KNN算法本质上是一种基于实例的机器学动分类更接近手工分类方法;王建会等[51针对KNN算习方法在分类过程中也会有一些缺点:对于大规模法时间复杂度高、可扩展性差等问题,提出一种基于收稿日期:2014—03.10收修改稿日期:2014—04.16本文系国家社会科学基金项目“数字图书馆标签系统的语义挖掘研究”(项目编号:12CTQ003)的研究成果之一。_圈现代图书情报技术总第250期2014年第9期互依赖和等效半径的分类算
6、法SECTILE,该算法可扩出现的范围越广,说明它区分文本内容的属性越低展性较好,且适用于大规模文本分类;朱靖波等[6】提(IDF)。其公式如下:出一种基于内容主题识别算法FIFA的文本分类方法,VT啷(wik)=(wik)i(wik):(wik)。g‘N)‘)该方法主要通过特征识别模块构造文本的主题特征集,然后采用集聚公式进行主题特征集聚过程,根据其中,tf(wik)为特征词Wk在文本i中出现的频集聚结果中各个主题的权值,选择权值大的主题作为率,df(wjk)为文本集中出现过特征词Wk的文本数,N文本的主题标注;Yigit[7J提出一种基于距离—
7、权重的分为文本集中的文本数。类算法,通过人工蜂群算法(ABe)寻找最优权重对文2.2特征选择方法本进行分类:Mejdoub等]在KNN算法的基础上提出一在文本表示过程中,对于文本集中的“非作用词【llI”种图形分类算法,有效结合使用有监督和无监督方法,(对文本分类表现力不强的特征词)应将其过滤掉,以提高分类性能。提高分类效果,同时降低特征向量的维度。特征选择在上述研究的基础上,针对KNN算法在对大规就是通过构造一个特征评估函数,计算每个特征词的模长文本分类时的分类准确率、时间效率等问题,本函数值,并根据该函数值选择具有代表性的特征子集文提出一种基于
8、类平均相似度的分类算法(简称类平作为文本表示的特征项,特征选择的关键是特征评估均相似度算法),该方法通过计算待分类文本与训
此文档下载收益归作者所有