资源描述:
《基于词向量空间模型的中文文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第30卷第10期合肥工业大学学报(自然科学版)Vol.30No.102007年10月JOURNALOFHEFEIUNIVERSITYOFTECHNOLOGYOct.2007基于词向量空间模型的中文文本分类方法11,21胡学钢,董学春,谢飞(1.合肥工业大学计算机与信息学院,安徽合肥230009;2.安徽省池州市96161部队12分队,安徽池州247100)摘要:大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表
2、示成空间向量,通过训练得到词2类别支持度矩阵,根据待分文本的词和词2类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。关键词:文本分类;向量空间模型;K2最近邻居;词向量空间模型中图分类号:TP182文献标识码:A文章编号:100325060(2007)1021261204MethodofChinesetextcategorizationbasedonthewordvectorspacemodel11,21HUXue2gang,DONGXue2chun,XIEFei(1.SchoolofComp
3、uterandInformation,HefeiUniversityofTechnology,Hefei230009,China;2.No.12Team,96161UnitofPLA,Chizhou247100,China)Abstract:Mostofthemethodsoftextcategorizationarebasedonthevectorspacemodel,butthehighdimensionofdocumentvectorsbasedonthemodelleadstodifficultyinimprovingeffic
4、iencyoftheclassifier.Inviewofthedefect,amethodofChinesetextcategorizationbasedonthewordvectorspacemodelispresentedinthispaper.Thecharacteristicwordsofatextaredefinedasspacevectors,andtheword2classsupportingmatrixcanbegottenbytraining,andthenthecharacteristicwordsandthewo
5、rd2classsupportingmatrixareusedforcomputingtextsimilarity.Experimentshowsthatthepresentedmethodhashigherprecisionandefficiency.Keywords:textcategorization;vectorspacemodel;K2nearestneighbor;wordvectorspacemodel文本分类是指把一组预先由专家分类过的文有最快的速度,但分类精度最低;KNN的性能比本作为训练集,对训练集进行分析得出分类模
6、式,较稳定,但时空效率有待提高。[1]用导出的分类模式对其他文本加以分类。它主现有的中文文本分类系统基本都是基于文献要应用于信息检索、机器翻译、自动文摘及信息过[7]在20世纪70年代提出的向量空间模型VSM虑等。文本分类技术自从在美国国家技术标准局(VectorSpaceModel),基于这种模型的分类方和美国国防高级研究计划局组织的TREC(Text法计算简单有效,因此得到了广泛应用,但时空效RetrievalConference)会议上被正式提出,至今已率难以提高。基于传统向量空间模型的分类方法有近20多年的历史,这期间涌现了许多
7、分类方都是将文本表示为高维空间中一个点向量,这种法,如基于统计学的支持向量机(SVM)[2]、K2最方法在文本表示时向量空间维数会达到上千维,近邻居(KNN)[3,4]、朴素贝叶斯(NB)[1]、基于连高维向量运算和大量文本表示的开销是当前诸多[5]文本分类器效率难以提高的原因所在。语言学告接方法的神经网络和基于规则的决策树等。文诉人们,文本的数量是无限的,但是组成无限文本献[6]指出,SVM、KNN和NB是最好的3种分的词语数量是有限的。如果将表示文本的特征词类方法,SVM分类精度最高,但速度最慢;NB具收稿日期:2006210213
8、;修改日期:2007204230基金项目:安徽省自然科学基金资助项目(050420207)作者简介:胡学钢(1961-),男,安徽当涂人,合肥工业大学教授,硕士生导师.1262合肥工业大学学报(自然科学版)