一种改进的朴素贝叶斯关键词提取算法研究.pdf

一种改进的朴素贝叶斯关键词提取算法研究.pdf

ID:56058948

大小:379.98 KB

页数:4页

时间:2020-06-20

一种改进的朴素贝叶斯关键词提取算法研究.pdf_第1页
一种改进的朴素贝叶斯关键词提取算法研究.pdf_第2页
一种改进的朴素贝叶斯关键词提取算法研究.pdf_第3页
一种改进的朴素贝叶斯关键词提取算法研究.pdf_第4页
资源描述:

《一种改进的朴素贝叶斯关键词提取算法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第3l卷第2期计算机应用与软件V01.31No.22014年2月ComputerApplicationsandSoftwareFeb.2014一种改进的朴素贝叶斯关键词提取算法研究王锦波王莲芝高万林喻健(中国农业大学信息与电气工程学院北京100083)摘要为了提高关键词提取的准确率,在利用文本中相同词的前后词共现频率识别组合词的基础上,提出一种基于改进词语统计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、TFIDF值作为词语的特征项,改进了统计词长、TF—IDF和词频的方法,使长词和TF—IDF大的词具

2、有更高的概率,而在统计词频时,考虑了词语之间包含与被包含的关系。然后,采用朴素贝叶斯模型对标记好关键词的文本进行训练,获得各个特征项出现的概率,用来提取文本的关键词。实验表明,与传统基于词频和决策树C4.5的关键词提取算法相比,采用该方法提取的关键词具有更高的准确率和可读性。关键词朴素贝叶斯组合词识别词语特征项关键词提取中图分类号TP391文献标识码ADOI:10.3969/j.issn.1000—386x.2014.02.047ONANIMPROVEDNAⅣEBAYESIANKEYWORDEXTRACTIONALGORI

3、THMWangJinboWangLianzhiGaoWanlinYuJian(CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China)AbstractInordertoimprovethekeywordextractionaccuracy,basedonrecognisingthecompoundbyusingCO—occurrencefrequencyofthewordsbeforeandaf

4、tertheidenticalwordsintext,weproposeanaiveBayesiankeywordextractionalgorithmwhichisbasedO13.theimprovementofstatisticalcharacteristicsofwordsandexpressions.Thealgorithmselectsthewordlength,thepartofspeech,thepositionandtheTF—IDFvalueofthewordsandexpressionsasthefe

5、atureitemsofthewordsandexpressions,improvesthemethodofcountingthewordlength,TF—IDFandwordfrequency,makesthosewordswithlongerlengthandhigherTF—IDFvaluehavehigherprobability.Whilecountingthewordfrequency,itconsiderstherelationshipofcontainingandtobecontainedbetweent

6、hewords.Then,itusesnai'veBayesianmodeltotrainthetextswiththekeywordsmarkedandtogettheoccurenceprobabilityofeachfeatureitemforextractingthekeywordsoftext.Accordingtotheexperiment,thekeywordsextractedbythealgorithminthispaperhaveahigherprecisionrateandreadabilitytha

7、nbythetraditionalwordfrequency—basedanddecisiontreeCA.5-basedkeywordextractionalgorithms.KeywordsNaiveBayesCompoundrecognitionWordandexpressionfeatureitemKeywordextraction词语的特征值进行训练,开发了KEA系统,用来抽取关键词,但0引言是没有考虑到词性的影响。本文在通过相同词语的前后词共现频率识别组合词的基础关键词是指一篇文章中能展现文章内容的词眼,通过阅

8、读上,选取词语的词性、词长、词语位置、TF—IDF值作为词语的特关键词,可以迅速获得文章的主旨大意,检索相关的文档,另外征项。改进了词长、TF.IDF(词频和反文档频率的乘积)和词频关键词是生成自动摘要,进行文本聚类的重要方法。但是一般的统计方法,使长词和TF—IDF大的词具有更高的概率,统计词文章中很

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。