欢迎来到天天文库
浏览记录
ID:34722982
大小:2.58 MB
页数:42页
时间:2019-03-10
《一种利用本体关联度改进tf-idf特征词提取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要传统的TF-IDF文本特征词提取方法是一种基于统计的方法,它将词语作为独立的单元进行处理,通过统计文本中词语出现的频次及文本集合中包含同一词语的文本数量确定文本的特征词。该方法虽然能够在一定程度上降低计算时间、简化文本特征词提取的步骤,但存在未考虑词语之间的关联关系、忽略区分度较高的低频词等不足,从而限制了文本特征词提取的精确度。本体具有良好的概念层次结构和对逻辑推理的支持,并能够通过概念层次图表示概念术语间的关联关系。为了优化传统的文本特征词提取方法,将本体引入到文本特征词提取中,并构建了适合论文实验的两个简单领域本体,通过改进现有的语义相似
2、度和语义相关度计算方法得到一种本体关联度计算方法,利用该计算方法计算领域本体中概念之间的本体关联度。本文提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词;再利用候选特征词与其本体关联词之间的本体关联度、候选特征词的初始权重、本体关联词的个数以及本体关联词自身的权重调整候选特征词的权重;最后根据调整后的权重得到新的候选特征词排序。该方法考虑了词语之间的关联关系,并且能够将区分度较高的低频词识别出来作为文本特征词,从而
3、弥补了传统的TF-IDF文本特征词提取方法在词语之间关联关系、区分度较高的低频词识别等方面的不足。实验结果证明,该方法能够有效提高文本特征词提取的准确度。关键词文本特征词提取TF-IDF本体关联词本体关联度IAbstractAbstractTraditionalTF-IDFtextfeatureextractionmethodisamethodbasedonstatisticaltheory.Thismethodtakestextfeatureasaseparateunit,anddeterminesthefeaturewordofthetextbyc
4、ountingthefrequencyofawordwhichappearsinatextandthenumberofthetextswhichincludethiswordandappearinthetextset.Althoughthismethodcanreducethecomputationtimetosomeextent,andsimplifythestepsofthetextfeatureextraction,butthismethodhaveweakpoints,suchasnotconsideringtherelationshipbet
5、weenwords,ignoringthewordswithlowfrequencywhichcanexpressthecontentofthetext,andsoon.Becauseoftheweakpoints,theaccuracyofextractingtextfeaturebythismethodisnothigh.Ontologyhasagoodconceptofhierarchyandsupportlogicalreasoning,andexpressestherelationshipbetweentermsbytheconceptofh
6、ierarchicalgraph.InordertooptimizethetraditionalTF-IDFtextfeatureextractionmethod,thisthesisintroducesontologyintothetextfeatureextractionmethod,Andbuilttwosimpledomainontologyforexperiments,getacalculationmethodofontologyrelativedegreebyimprovingtheexistingcalculationmethodofse
7、manticsimilarityandsemanticcorrelation,calculatetheontologyrelativedegreebetweentwoconceptsofdomainontology.ThisthesisputforwardanimprovedTF-IDFfeatureextractionmethodbasedonOntologyrelativedegree.Thestepsofimprovedmethodisthat:First,constructthecandidatefeaturesetandnon-candida
8、tefeaturesetusingthetraditionalTF-IDFmethod;Sec
此文档下载收益归作者所有