基于词向量空间模型的中文文本分类方法

基于词向量空间模型的中文文本分类方法

ID:5392523

大小:196.96 KB

页数:4页

时间:2017-12-08

基于词向量空间模型的中文文本分类方法_第1页
基于词向量空间模型的中文文本分类方法_第2页
基于词向量空间模型的中文文本分类方法_第3页
基于词向量空间模型的中文文本分类方法_第4页
资源描述:

《基于词向量空间模型的中文文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第30卷第10期合肥工业大学学报(自然科学版)Vol.30No.102007年10月JOURNALOFHEFEIUNIVERSITYOFTECHNOLOGYOct.2007基于词向量空间模型的中文文本分类方法11,21胡学钢,董学春,谢飞(1.合肥工业大学计算机与信息学院,安徽合肥230009;2.安徽省池州市96161部队12分队,安徽池州247100)摘要:大多文本分类方法是基于向量空间模型的,基于这一模型的文本向量维数较高,导致分类器效率难以提高。针对这一不足,该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表

2、示成空间向量,通过训练得到词2类别支持度矩阵,根据待分文本的词和词2类别支持度矩阵计算文本与类别的相似度。实验证明,这一分类方法取得了较高的分类精度和分类效率。关键词:文本分类;向量空间模型;K2最近邻居;词向量空间模型中图分类号:TP182文献标识码:A文章编号:100325060(2007)1021261204MethodofChinesetextcategorizationbasedonthewordvectorspacemodel11,21HUXue2gang,DONGXue2chun,XIEFei(1.SchoolofComp

3、uterandInformation,HefeiUniversityofTechnology,Hefei230009,China;2.No.12Team,96161UnitofPLA,Chizhou247100,China)Abstract:Mostofthemethodsoftextcategorizationarebasedonthevectorspacemodel,butthehighdimensionofdocumentvectorsbasedonthemodelleadstodifficultyinimprovingeffic

4、iencyoftheclassifier.Inviewofthedefect,amethodofChinesetextcategorizationbasedonthewordvectorspacemodelispresentedinthispaper.Thecharacteristicwordsofatextaredefinedasspacevectors,andtheword2classsupportingmatrixcanbegottenbytraining,andthenthecharacteristicwordsandthewo

5、rd2classsupportingmatrixareusedforcomputingtextsimilarity.Experimentshowsthatthepresentedmethodhashigherprecisionandefficiency.Keywords:textcategorization;vectorspacemodel;K2nearestneighbor;wordvectorspacemodel文本分类是指把一组预先由专家分类过的文有最快的速度,但分类精度最低;KNN的性能比本作为训练集,对训练集进行分析得出分类模

6、式,较稳定,但时空效率有待提高。[1]用导出的分类模式对其他文本加以分类。它主现有的中文文本分类系统基本都是基于文献要应用于信息检索、机器翻译、自动文摘及信息过[7]在20世纪70年代提出的向量空间模型VSM虑等。文本分类技术自从在美国国家技术标准局(VectorSpaceModel),基于这种模型的分类方和美国国防高级研究计划局组织的TREC(Text法计算简单有效,因此得到了广泛应用,但时空效RetrievalConference)会议上被正式提出,至今已率难以提高。基于传统向量空间模型的分类方法有近20多年的历史,这期间涌现了许多

7、分类方都是将文本表示为高维空间中一个点向量,这种法,如基于统计学的支持向量机(SVM)[2]、K2最方法在文本表示时向量空间维数会达到上千维,近邻居(KNN)[3,4]、朴素贝叶斯(NB)[1]、基于连高维向量运算和大量文本表示的开销是当前诸多[5]文本分类器效率难以提高的原因所在。语言学告接方法的神经网络和基于规则的决策树等。文诉人们,文本的数量是无限的,但是组成无限文本献[6]指出,SVM、KNN和NB是最好的3种分的词语数量是有限的。如果将表示文本的特征词类方法,SVM分类精度最高,但速度最慢;NB具收稿日期:2006210213

8、;修改日期:2007204230基金项目:安徽省自然科学基金资助项目(050420207)作者简介:胡学钢(1961-),男,安徽当涂人,合肥工业大学教授,硕士生导师.1262合肥工业大学学报(自然科学版)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。