一种利用本体关联度改进tf-idf特征词提取方法

一种利用本体关联度改进tf-idf特征词提取方法

ID:34722982

大小:2.58 MB

页数:42页

时间:2019-03-10

一种利用本体关联度改进tf-idf特征词提取方法_第1页
一种利用本体关联度改进tf-idf特征词提取方法_第2页
一种利用本体关联度改进tf-idf特征词提取方法_第3页
一种利用本体关联度改进tf-idf特征词提取方法_第4页
一种利用本体关联度改进tf-idf特征词提取方法_第5页
资源描述:

《一种利用本体关联度改进tf-idf特征词提取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要摘要传统的TF-IDF文本特征词提取方法是一种基于统计的方法,它将词语作为独立的单元进行处理,通过统计文本中词语出现的频次及文本集合中包含同一词语的文本数量确定文本的特征词。该方法虽然能够在一定程度上降低计算时间、简化文本特征词提取的步骤,但存在未考虑词语之间的关联关系、忽略区分度较高的低频词等不足,从而限制了文本特征词提取的精确度。本体具有良好的概念层次结构和对逻辑推理的支持,并能够通过概念层次图表示概念术语间的关联关系。为了优化传统的文本特征词提取方法,将本体引入到文本特征词提取中,并构建了适合论文实验的两个简单领域本体,通过改进现有的语义相似

2、度和语义相关度计算方法得到一种本体关联度计算方法,利用该计算方法计算领域本体中概念之间的本体关联度。本文提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词;再利用候选特征词与其本体关联词之间的本体关联度、候选特征词的初始权重、本体关联词的个数以及本体关联词自身的权重调整候选特征词的权重;最后根据调整后的权重得到新的候选特征词排序。该方法考虑了词语之间的关联关系,并且能够将区分度较高的低频词识别出来作为文本特征词,从而

3、弥补了传统的TF-IDF文本特征词提取方法在词语之间关联关系、区分度较高的低频词识别等方面的不足。实验结果证明,该方法能够有效提高文本特征词提取的准确度。关键词文本特征词提取TF-IDF本体关联词本体关联度IAbstractAbstractTraditionalTF-IDFtextfeatureextractionmethodisamethodbasedonstatisticaltheory.Thismethodtakestextfeatureasaseparateunit,anddeterminesthefeaturewordofthetextbyc

4、ountingthefrequencyofawordwhichappearsinatextandthenumberofthetextswhichincludethiswordandappearinthetextset.Althoughthismethodcanreducethecomputationtimetosomeextent,andsimplifythestepsofthetextfeatureextraction,butthismethodhaveweakpoints,suchasnotconsideringtherelationshipbet

5、weenwords,ignoringthewordswithlowfrequencywhichcanexpressthecontentofthetext,andsoon.Becauseoftheweakpoints,theaccuracyofextractingtextfeaturebythismethodisnothigh.Ontologyhasagoodconceptofhierarchyandsupportlogicalreasoning,andexpressestherelationshipbetweentermsbytheconceptofh

6、ierarchicalgraph.InordertooptimizethetraditionalTF-IDFtextfeatureextractionmethod,thisthesisintroducesontologyintothetextfeatureextractionmethod,Andbuilttwosimpledomainontologyforexperiments,getacalculationmethodofontologyrelativedegreebyimprovingtheexistingcalculationmethodofse

7、manticsimilarityandsemanticcorrelation,calculatetheontologyrelativedegreebetweentwoconceptsofdomainontology.ThisthesisputforwardanimprovedTF-IDFfeatureextractionmethodbasedonOntologyrelativedegree.Thestepsofimprovedmethodisthat:First,constructthecandidatefeaturesetandnon-candida

8、tefeaturesetusingthetraditionalTF-IDFmethod;Sec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。