欢迎来到天天文库
浏览记录
ID:53769005
大小:387.37 KB
页数:6页
时间:2020-04-25
《一种结合关键词与共现词对的向量空间模型-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、CN431258/TP计算机工程与科学第36卷第5期2014年5月ISSN1007—13OXComputerEngineering&ScienceVo1.36,No.5,May.2014文章编号:1007—130X(2014)05—0971—06一种结合关键词与共现词对的向量空间模型唐守忠,齐建东(北京林业大学信息学院,北京100083)摘要:提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词
2、对特征。最后,结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明,提出的模型具有更强的文本分类能力。关键词:向量空间模型;共现词对;语义相关性;文本分类中图分类号:TP391.3文献标志码:Adoi:10.3969/J.issn.1007—13OX.2O14.05.O31VectorspacemodelbasedonkeywordsandCO-。occurrencewordpairsTANGShou—zhong,QIJian—dong(SchoolofInformation,BeijingForestryUniversity,Bei
3、jing100083,China)Abstract:Anewvectorspacemodelisproposed,whichusesbothkeywordandCO—occurrencetermastherepresentationfeaturesofdocuments.Firstly,thekeywordcandidatesareextractedfromdocu—mentsbysegmentingtextsandremovingstopwords,andthekeywordfeaturesarefilteredbydocumentfrequen
4、cy.Secondly,basedontheobtainedkeywordfeatures,theCO—occurrencewordpairsareconstruc—ted,andsupportdegreeandconfidencedegreearedefinedtofilterthefeaturesofCO—occurrencewordpairs.Finally,thekeywordfeaturesandthefeaturesofco—occurrencewordpairsarecombinedtocon—structthevectorspace
5、mode1.Thetext—classificationexperimentsshowthattheproposedmodelhasbet—terabilityoftextclassification.Keywords:vectorspacemodel;CO—occurrenceword;semanticalrelationship;textclassification互独立性假设,VSM无法表示关键词之间的语义引言相关性;另一方面,由于完全依赖关键词的字符串匹配,VSM也无法处理文本中经常出现的同义词向量空间模型VSM(VectorSpaceMo
6、de1)是和多义词现象。最为经典的文本表示模型,被广泛应用于文本分针对上述问题,本文首先在调研目前VSM改类、聚类、信息检索等领域。该模型由SaltonG等进方向的基础上,指出了利用统计语言模型改进人_】于1975年提出,其基本思想是将文本表示为VSM的优势;然后介绍了统计语言模型中的词共基于关键词特征的向量,利用TF—IDF公式计算关现理论,并总结当前利用词共现信息改进VSM的键词特征的权重。VSM简单高效,但不能表示文研究工作及其不足;最后利用词共现信息构造“共本的语义特征:一方面,由于基于关键词之间的相现词对”特征,定义精确的共现词对特征支持
7、度、置*收稿日期:2013—02—25;修回日期:2013-04—24基金项目:十二五科技支撑课题(2011BAH10B04)通信地址:100083北京市清华东路35号北京林业大学信息学院1024信箱Address:Mailbox1024,SchoolofInformation,BeijingForestryUniversity,35QinghuaRdEast,Beijing100083,P.R.China972ComputerEngineering&Science计算机工程与科学2014,36(5)信度和权重计算方法,并将共现词对特征与VSM词对
8、(key,key)的共现频率是指文本集合中同时原有的关键词特征结合,提出了一种结合关键词与包含关键词key和key2的文本
此文档下载收益归作者所有