一种结合关键词与共现词对的向量空间模型-论文.pdf

一种结合关键词与共现词对的向量空间模型-论文.pdf

ID:53769005

大小:387.37 KB

页数:6页

时间:2020-04-25

一种结合关键词与共现词对的向量空间模型-论文.pdf_第1页
一种结合关键词与共现词对的向量空间模型-论文.pdf_第2页
一种结合关键词与共现词对的向量空间模型-论文.pdf_第3页
一种结合关键词与共现词对的向量空间模型-论文.pdf_第4页
一种结合关键词与共现词对的向量空间模型-论文.pdf_第5页
资源描述:

《一种结合关键词与共现词对的向量空间模型-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、CN431258/TP计算机工程与科学第36卷第5期2014年5月ISSN1007—13OXComputerEngineering&ScienceVo1.36,No.5,May.2014文章编号:1007—130X(2014)05—0971—06一种结合关键词与共现词对的向量空间模型唐守忠,齐建东(北京林业大学信息学院,北京100083)摘要:提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词

2、对特征。最后,结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明,提出的模型具有更强的文本分类能力。关键词:向量空间模型;共现词对;语义相关性;文本分类中图分类号:TP391.3文献标志码:Adoi:10.3969/J.issn.1007—13OX.2O14.05.O31VectorspacemodelbasedonkeywordsandCO-。occurrencewordpairsTANGShou—zhong,QIJian—dong(SchoolofInformation,BeijingForestryUniversity,Bei

3、jing100083,China)Abstract:Anewvectorspacemodelisproposed,whichusesbothkeywordandCO—occurrencetermastherepresentationfeaturesofdocuments.Firstly,thekeywordcandidatesareextractedfromdocu—mentsbysegmentingtextsandremovingstopwords,andthekeywordfeaturesarefilteredbydocumentfrequen

4、cy.Secondly,basedontheobtainedkeywordfeatures,theCO—occurrencewordpairsareconstruc—ted,andsupportdegreeandconfidencedegreearedefinedtofilterthefeaturesofCO—occurrencewordpairs.Finally,thekeywordfeaturesandthefeaturesofco—occurrencewordpairsarecombinedtocon—structthevectorspace

5、mode1.Thetext—classificationexperimentsshowthattheproposedmodelhasbet—terabilityoftextclassification.Keywords:vectorspacemodel;CO—occurrenceword;semanticalrelationship;textclassification互独立性假设,VSM无法表示关键词之间的语义引言相关性;另一方面,由于完全依赖关键词的字符串匹配,VSM也无法处理文本中经常出现的同义词向量空间模型VSM(VectorSpaceMo

6、de1)是和多义词现象。最为经典的文本表示模型,被广泛应用于文本分针对上述问题,本文首先在调研目前VSM改类、聚类、信息检索等领域。该模型由SaltonG等进方向的基础上,指出了利用统计语言模型改进人_】于1975年提出,其基本思想是将文本表示为VSM的优势;然后介绍了统计语言模型中的词共基于关键词特征的向量,利用TF—IDF公式计算关现理论,并总结当前利用词共现信息改进VSM的键词特征的权重。VSM简单高效,但不能表示文研究工作及其不足;最后利用词共现信息构造“共本的语义特征:一方面,由于基于关键词之间的相现词对”特征,定义精确的共现词对特征支持

7、度、置*收稿日期:2013—02—25;修回日期:2013-04—24基金项目:十二五科技支撑课题(2011BAH10B04)通信地址:100083北京市清华东路35号北京林业大学信息学院1024信箱Address:Mailbox1024,SchoolofInformation,BeijingForestryUniversity,35QinghuaRdEast,Beijing100083,P.R.China972ComputerEngineering&Science计算机工程与科学2014,36(5)信度和权重计算方法,并将共现词对特征与VSM词对

8、(key,key)的共现频率是指文本集合中同时原有的关键词特征结合,提出了一种结合关键词与包含关键词key和key2的文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。