资源描述:
《改进的tf-idf关键词提取方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、ComputerScienceandApplication计算机科学与应用,2013,3,64-68doi:10.12677/csa.2013.31012PublishedOnlineFebruary2013(http://www.hanspub.org/journal/csa.html)*ImprovedTF-IDFKeywordExtractionAlgorithmXiaolinWang,LinYang,DongWang,LihuaZhenSchoolofComputer,AnhuiUniversityofTechnology,Ma’anshanEmail:wxl@ahut.
2、edu.cn,yl_5682@126.comndththReceived:Nov.22,2012;revised:Dec.16,2012;accepted:Dec.25,2012Abstract:AccordingtotheTF-IDFextractalgorithm,thispaperproposesanewextractionalgorithmbasedonthewordsfrequencystatistics.Combiningwithsectionsmarktechnology,thisalgorithmassignscorrespondingpositionweight
3、tothewordslocatedindifferentpositionandcalculatesthewordssimilaritieswiththesamepartsofspeechwhichhaveahighcounterintheresultofthewordsegmentation,thenmergethewordswithahighersimilarity,finallywegetthekeywordsortedbytheweightviatheTF-IWFalgorithm.ThismethodoptimizedthetraditionalChinesekeywor
4、dextractalgorithm,whichtakelittlenoticeofthehighersimilaritywords,andleadtolow-accuracy.TheresultsshowthenewapproachhasbetteralgorithmperformancecomparedwiththepreviousTF-IDFalgorithmandthekey-wordssetextractedcangenerallyexpressthecontentofthearticle.Keywords:Hownet;WordSimilarity;TF-IDF;Key
5、wordExtraction*改进的TF-IDF关键词提取方法王小林,杨林,王东,镇丽华安徽工业大学计算机学院,马鞍山Email:wxl@ahut.edu.cn,yl_5682@126.com收稿日期:2012年11月22日;修回日期:2012年12月16日;录用日期:2012年12月25日摘要:在TF-IDF算法基础上,提出新的基于词频统计的关键词提取方法。利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度计算,合并相似度较高的词语,通过词语逆频率TF-IWF算法,按权值排序得到关键词。这种改进算法解决了传统中文关键词提取方
6、法中对相似度高的词的不重视而导致关键词提取精度不高的问题。实验结果表明,改进的算法结果在准确率和召回率上较原有的TF-IDF算法上都得到较好的提升,使得提取的关键词集合能较好体现文本内容。关键词:知网;词语相似度;TF-IDF;关键词提取1.引言目前,关键词自动提取技术可分为三大类。1)基[1,2]于统计的方法,如TF,TF-IDF算法,简单快捷,关键词是能够表达文档中心内容的词语,常用于TF提取文本高频词作为候选关键词,TF-IDF采用文计算机系统标引论文内容特征、信息检索、系统汇集本逆频率IDF对TF值加权取权值大的作为关键词,以供读者检阅。由于它的出现和发展,使得计算机检T
7、urney对此方法作了实验证明。但IDF的简单结构并索技术得到发展。关键词提取是文本挖掘领域的一个不能有效地反映单词的重要程度和特征词的分布情分支,是文本检索、文档比较、摘要生成、文档分类况,使其无法很好地完成对权值调整的功能,所以和聚类等文本挖掘研究的基础性工作。TF-IDF算法的精度并不是很高,尤其是当文本集已经[3,4]分类的情况下;2)基于词共现图的方法,如Keyword*基金项目:国家自然科学基金资助项目(编号:61003311);安徽省高校省级自然科学基金资助项目(编