融合多特征的中文关键词提取方法.pdf

融合多特征的中文关键词提取方法.pdf

ID:56058836

大小:376.03 KB

页数:5页

时间:2020-06-20

融合多特征的中文关键词提取方法.pdf_第1页
融合多特征的中文关键词提取方法.pdf_第2页
融合多特征的中文关键词提取方法.pdf_第3页
融合多特征的中文关键词提取方法.pdf_第4页
融合多特征的中文关键词提取方法.pdf_第5页
资源描述:

《融合多特征的中文关键词提取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2014年第O8期纛doi:103969~issn1671-1122201408007融合多特征的中文关键词提取方法潘丽敏’,吴军华,林萌,罗森林(1.北京理工大学信息系统及安全对抗实验中心,北京100081;2湖南省公安厅,湖南长沙410001)摘要:关键词提取是指是从文本中提炼出能够概括文献内容的词或词组。关键词提取是文本处理中的一项十分重要的关键技术,针对关键词提取受分词效果影响以及统计偏差等问题,提出了一种融合多特征的中文关键词提取方法。该方法通过考虑词频、词长、词性、位置、互联网词典、停用词典等6方面因素对关键词权重的影响,分别对这些因素提出了量化方案,再结合线性加权、组

2、合词生成与过滤等技术进行关键词提取。文章实验中,采用从中国知网下载的包括环境、信息科学、交通、教育、经济、文史、化学、医药、农业、政治共10个类别论文的数据,论文中都含有作者自拟的关键词。实验结果表明,在候选词数量N为5的情况下,其关键词提取的近似匹配准确率为54.8%,召回率为65.1%。该方法不仅解决了关键词提取中受到分词影响而导致的召回率低的问题,而且能够针对文本中出现频率不高但是对于文本意义表达很重要的词进行提取,其提取的关键词在表达文本含义的方面要明显优于基于统计的方法,实用价值更大。关键词:关键词提取;多特征;加权因子;组合词中图分类号:TP309文献标识码:A文章编号

3、:1671—1122(2014)08—0040—05AlgorithmofChineseKeywordsExtractionbasedonMulti—featurePANLi—rainWUJun.hua2.LINMeng,LU0Sen—linr1.InformationSystemandSecurity&CountermeasuresExperimentalCenter,BeijingInstituteofTechnology,BeOing100081,China;2.HunanProvincialPublicSecurityDepartment,ChangshaHunan4100

4、01,China)Abstract:Intextprocessingarea,keywordshasbecomeacriticaltechniqueforalongtime.Keywordsextractionisaimedtoextractthevitalwordsorphraseswhichcansummarizetheliteraturecontent.Consideringtheinfluenceof6factors(suchastermfrequency,termlength,partofspeech,position,intemet-dictionaryandstopw

5、ordlist)totheweightofkeywordsintext,weproposeanewalgorithmofChinesekeywordsextractioninthispaper.Theproposedalgorithmcombineslinearweighting,andcompoundwordconstructionandfiltering.Theexperimentaldataconsistof10categoriesofliteraturewhicharedownloadedfromChinaNationalKnowledgeInfrastructure,na

6、melyenvironment,informationtechnology,transportation,education,economics,cultureandhistory,chemistry,medicine,agricultureandpolitics.Theresultsshowwhenthevalueofcandidatewordsequals5,theapproximatematchingprecisionis54.8%.therecallrateis65.1%.TheproposedmethodCallnotonlysolvestheproblemoflowre

7、callcoursedbyword—segmentationinkeywordextraction,butalsoextractwordswhicharenothi【gh—frequencybutimportantforthetextmeaningefectively.Keywords:keywordsextraction;multi—feature;weightingfactor;compoundword●收稿日期:2014~06—11基金项目:国家242计划项目【

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。