基于改进TF-IDF算法的情报关键词提取方法.pdf

基于改进TF-IDF算法的情报关键词提取方法.pdf

ID:53575586

大小:213.88 KB

页数:3页

时间:2020-04-19

基于改进TF-IDF算法的情报关键词提取方法.pdf_第1页
基于改进TF-IDF算法的情报关键词提取方法.pdf_第2页
基于改进TF-IDF算法的情报关键词提取方法.pdf_第3页
资源描述:

《基于改进TF-IDF算法的情报关键词提取方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第33卷第4期情报杂志Vo1.33No.42014年4月JOURNALOFINTELLIGENCEApr.2014基于改进TF—IDF算法的情报关键词提取方法张瑾(郑州轻工业学院郑州450002)摘要传统的TF—IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF—IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF—IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及Fl值与传

2、统方法相比有明显提升。关键词关键词提取TF-IDF位置权值词跨度值中图分类号TP391文献标识码A文章编号1002-1965(2014)04—0153-03DoI10.3969/j.issn.1002—1965.20l4.04.028AMethodofIntelligenceKeyWordsExtractionBasedonImprovedTF-IDFZhangJin(ZhengzhouUniversityofLightIndustry。Zhengzhou450002)AbstractBeingusuallyentirelybas

3、edonwordfrequency-TF-IDFneglectstheinfluenceofotherfeaturesofwordsonkeywords.TheessayproposesaautomatickeywordsextractingmethodbasedonTF-IDF,wordpositionandwordspan.WordpositionweightvalueandwordspanvaluealeaddedtOthetraditionalTF-IDFkeywordstermweighfingalgorithminor

4、dertoavoiddeviation.Theexperimentfind—ingsshowthattheproposedmethod。wjtllhigheraccuracy.1owerrecallrateandFIvalues。ismoreapplicableintheextractionofChineseintelligencekeywords.KeywordskeywordsextractionTF-IDFwordpositionweightvaluewordspanvalueTF表示词语i在该文档中出现的次数,逆文本频数0

5、引言IDF=log(N/N+13),其中J7、r表示文档总数,Ⅳl表示文随着大数据时代的到来,信息和现实生活密不可档中出现词语i的文档数,为一个经验值,一般取0.分,如此海量的数据使得寻找所需的情报的难度加大。01、0.1、1。以词频TF和逆文本频数IDF的乘积作为因此,如何有效提取有用情报的主题内容显得十分重该词语的权值,该方法简单直观,处理速度快。但该方要。关键词自动抽取是一种抽取具有专指性且能反映法逆文本频数作为词语的权重度量,简单认为如果词文档主题的词语或短语的自动化技术¨。关键词自语出现在许多文档中,其权值就低,造成将大

6、权重赋予动抽取是文本自动化处理的基础与核心技术之一。稀有词,从而导致关键词提取的准确率下降。1957年美国IBM公司的卢恩(H.P.Luhn)首次提20世纪90年代,国内外学者开始关注TF—IDF在出的基于词频统计的抽词标引法标志着关键词自关键词提取中的应用,针对其缺陷进行了改进。比如动提取的研究的开始。在计算词语的权值方法中使用沈志斌等提出的BOR—TFI—DF权重函数,张瑜等较多的是Saltond在1989年提出的TF—IDF算法,该提出的WA—DI—SI算法,苏丹等提出的TF—LDF方方法是近年来应用较多且效果较好的方法之一

7、。词频法,李原等提出的引入信息熵IG来改进TF—IDF算收稿日期:203—1I一27修回tt期:2013—12—30作者简介:张瑾(1970一),女,硕士,馆员,研究方向:文献信息资源开发利用。·154-情报杂志第33卷法等,此类方法在一定程度上弥补了TF—IDF方法的越高,在文档集合C中出现的频率越低,则该词语的不足,但是引入词位置权值及词跨度权值列TF—IDFTF一1DF权重较高,说明其包含的信息熵较大,具有较进行改进的很少。好的代表性。笔者将考虑词位置和词跨度对关键词权值的影2.2跨度权值一个词的跨段落情况说明这个词响。通过

8、对词位置及词跨度进行量化,并将其引入到是描述局部的还是表达全文的。跨段数越多,说明该传统的TF—IDF算法中,对传统TF—IDF算法进行改词越重要,全局性越强。显然,局部关键词不是我们需进。然后,以此算法模型进行实际的应用,验证其可行要提取的目标,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。