欢迎来到天天文库
浏览记录
ID:57974635
大小:367.45 KB
页数:4页
时间:2020-04-18
《关键词自动提取方法的研究与改进-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第41卷第6期计算机科学Vo1.41NO.62014年6月ComputerScienceJune2014关键词自动提取方法的研究与改进黄磊。伍雁鹏朱群峰。(湖南大学信息科学与工程学院长沙410082)(邵阳学院信息工程系邵阳422000)摘要关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(InverseDocumentFrequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这
2、会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(DistributionInformation)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFⅢlF方法提取关键词的准确度要高于传统的TFI【)F算法。关键词关键词提取,特征权重,TFIDF,DFTHDF中图法分类号TP391.1文献标识码AResearchandImprovementofTFIDFTextF
3、eatureWeightingMethodHUANGLei’、7l厂LJYan-penfZHUQun-feng2(SchoolofInformationScienceandEngineering,HunanUniversity,Changsha410082,China)(DepartmentofElectricEngineering,ShaoyangUniversity,Shaoyang422000,China)。AbstractKeywordsextractionmethodplaysaveryimportantroleintheareasoftextclassifica
4、tionandinformationre-trieva1.ThispaperfirstlyanalysedtheshortageoftheoriginalTFIDFalgorithm,thatisthemlF(InverseDocumentFrequency)algorithmdoesnotconsiderthedistributionoffeaturetermbetweencategories.Sosomeproblemswillap—pear,suchasthetermswithlowfrequencyandthehighIDFweights,andsomewordsw
5、ithhighfrequencyandlowIDFweights,whichcancausethattheprecisionofkeywordsextractionisnotaccurate.Afteranalysisoftheseproblems,byincreasinganewweightDI(DistributionInformation),wegotanewDI-TFIDFalgorithm.Acorpususedintheexperi—mentwasdownloadedfmmtheSogoucorpusandweselectedthe1000articleofsp
6、orts,educationandmilitarydocu—mentsasanexperimentbasedonthetraditiohalTFIDFmethodandtheDI_TFⅡ)Fmethod.ExperimentalresultsshowthatourproposedDI-TFIDFmethodcanemra~thekeywordsinahigheraccuracythantraditionalTFIDFalgorithm.Ke~ordsKeywordsextraction,Term-weighting,TFIDF,DI-TFIDF求的渴望。1引言综上所述,关键
7、词提取技术是文字信息处理中重要的基随着Intemet的广泛应用,海量的信息资源以文本形式础工作。本课题研究的目的是基于改进的TFIDF算法提取存在。信息世界的不断发展,极大地丰富了人类的生活,但也出关键词,由于文本特征权重算法对关键词提取的准确率有带来了棘手的问题:如何在庞大的信息世界中迅速找到所需着重要的影响,因此对传统的TFIDF的改进就非常有必要。的信息。这一问题成为了一项具有重大研究意义的课题。最终研究成果是设计出关键词提取系统,该系统可以应用到在文档信息中,关键词起到了关键作用,它是能够反映一网页关键词提
此文档下载收益归作者所有