欢迎来到天天文库
浏览记录
ID:34431902
大小:200.61 KB
页数:5页
时间:2019-03-06
《文本分类中特征提取方法的比较与研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、维普资讯http://www.cqvip.com第23卷第6期l呵方学院学球(自然科学版)Vo1.23NO.62007年l2月JournalofHebeiNorthUniversity(NaturalScienceEdition)Dec.2007文本分类中特征提取方法的比较与研究郑伟,王锐。(1.河北北方学院理学院物理系,河北张家口075000;2.河北北方学院理学院计算机系,河北张家口075000)摘要:介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法
2、应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.关键词:文本分类;互信息;信息增益;SVM;特征提取中图分类号:TP391文献标识码:A文章编号:1673—1492(2007)06-0051-04ComparativeStudyofFeatureSelectioninChineseTextCategorizationZHENGWei,WANGRui(1.Departm
3、entofPhysics,SchoolofScience,HebeiNorthUniversity,Zhangjiakou075000,Heibei,China;2.DepartmentofComputerSciences,HebeiNorthUniversity,Zhangjiakou075000,Heibei,China)Abstract:Thecriticaltechniqueoftextcategorization,andespeciallythemethodaboutselectionoftextfeatherare
4、introduced。ChoosingSVMasthemethodoftextclassifiontrainingandthedifferentmethodsinselectionoftextfeather,wecompareandanalyzethecategorizationcapacitywhichismodedofdifferentmethodsaboutselectionoftextfeatherbyexperiment.WecangettheconclusionthatIGandWETarethebestmetho
5、dsoftextfeatherselection,whichwilllaysolidfoundationsoftheoryandpratice.Keywords:textcategorization;MutualInformation;InformationGain;SVM;featherselection随着计算机技术和万维网(WWW)的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本分类系统是信息处理的重要研究方向,文本分类成为处理和组织大量文档数据的关键技术,它是指在给定的分类体系下,根据文本的内容自动判别
6、文本类别的过程.近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,正在各个领域得到广泛的应用,有效地提高了信息服务的质量.但是,随着信息量日趋丰富,人们对于内容搜索的准确率、查全率等方面的要求会越来越高,因而,对文本分类技术需求大为增加.文本分类包含向量空间模型、特征提取、文本分类方法等关键技术,其中特征提取是分类中的一个重要环节,对分类正确率有着决定性的影响.1分类关键技术1.1文本的表示目前,在信息处理方向上,文本的表示主要采用向量空间模型(VSM).向量空间模型的基本思想是以向量来表示文本:
7、(W。,W,W⋯.W),其中W为第i个特征项的权重.那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组.因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文收稿日期:2007—09—17作者简介:郑伟(1978一),男,内蒙古呼伦贝尔人.河北北方学院理学院讲师,在读硕士.维普资讯http://www.cqvip.com2007年12月河北北方学院学报(自然科学版)第6期本,用词频来表示特征项对应的向量分量.词频计算方法主要运用TF-I
8、DF公式,目前存在多种TF—IDF公式,我们在系统中采用了一种比较普遍的TF-IDF公式:W(,)一tf(t,)×log(N/n+0.01)∑Etf(t,)×log(N/+0.01)-]。其中,w(t,a)为词t在文本a中的权重,而tf(t,a)为词t在文本中的词频,N为训练
此文档下载收益归作者所有