云南种子植物特有属领域词语相似度算法研究

云南种子植物特有属领域词语相似度算法研究

ID:20372078

大小:52.05 KB

页数:10页

时间:2018-10-12

云南种子植物特有属领域词语相似度算法研究_第1页
云南种子植物特有属领域词语相似度算法研究_第2页
云南种子植物特有属领域词语相似度算法研究_第3页
云南种子植物特有属领域词语相似度算法研究_第4页
云南种子植物特有属领域词语相似度算法研究_第5页
资源描述:

《云南种子植物特有属领域词语相似度算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、云南种子植物特有属领域词语相似度算法研究摘要:以《同义词词林》为基础,结合云南种子植物特有属领域知识补充了《同义词词林》中该领域的词语,并提出了一种基于同义词词林的词语相似度改进算法。经过测试对比,在植物检索领域该计算方法比一般的基于同义词词林的词语相似度算法更加准确,而且召回率得到了明显提升,更适用于云南种子植物特有属领域信息的检索。关键词:同义词词林;词语相似度算法;云南;种子植物;特有属中图分类号:Q949;G354.4文献标识码:A文章编号:0439-8114(2017)07-1356-03DOI:10.14088/j.cnki.issn0439-8114.2017.07.040

2、ResearchonAlgorithmforCalculatingWordSimilarityintheFieldofEndemicGeneraofSeedPlantsinYunnanLUGuo-quan,PENGLin,PANGXue(KeyLaboratoryofAgriculturalInformationTechnologyinYunnan,YunnanAgriculturalUniversity,Kunming650201,China)Abstract:Animprovedwordsimilarityalgorithmputforwardbasedoncilincombined

3、withtheknowledgeoftheendemicgeneraofseedplantsinYunnansupplementthewordsaboutthisfield.Experimentresultsillustratethatthisimprovedalgorithmforcalculatingwordsimilaritybasedon“cilinismoreprecisethangeneralalgorithmforcalculatingwordsimilaritybasedon“cHin”andrecallhasbeensignificantlyimproved.There

4、fore,thisimprovedalgorithmismoresuitableforthesemanticretrievalsysteminthefieldofendemicgeneraofseedplantsinYunnan.Keywords:cilin;algorithmforcalculatingwordsimilarity;Yunnan;seedplants;endemicgenera词语语义相似度来源于计算机语言学等领域,它可以度量术语、词汇、概念之间的相似程度,被看作概念在分类上的相似程度m。词语语义相似度的计在语义检索、自动问答、文本聚类等应用中起着重要作用[2-4]。传

5、统的检索方式仍基于关键字匹配和倒排索引[5],几乎没有任何语义功能。通常,传统检索方式不能理解用户的查询意图,一旦用户输入不准确的查询词就会得到许多不相关的结果。将词语语义相似度计算引入检索系统后,检索系统便具备了语义功能,就算用户输入模糊的查询词,检索系统也能检索出用户所关心的信息。目前,对于词语语义相似度的计算方法主要集中在以下几方面:①基于?y计的方法,假设语义词语相似的词语之间具有相同的上下文关系,以上下文信息的概率分布作为依据,利用词语之间的相关性来计词语相似度[6];②基于本体的方法,依据颂域内专家建立的领域本体,利用该领域知识的语义树来计算词语间距离词语的相似度[7];③基

6、于语义词典的方法,利用语言专家编撰好的语义词典进行语义相似度计算由于基于同义词典的词语相似度算法具有实现简单、高效、直观、易于理解且不需要训练的特点,因此基于同义词词典的词语相似度算法在各个领域得到了广泛的应用[8]。但是目前还存在以下问题:①词典的词条更新不及时。由于基于同义词典的词语相似度的计算依赖于语义词典,而编撰词典通常需要多名顶级语言专家共同完成,网络时代的知识爆炸使得词典滞后于新兴词语的出现。②领域内的专业词汇收录不全。毎个领域有不同的专业知识和词语,语言专家作为语言领域的专家,在编撰语义词典的时候很难将所有专业领域内的词语囊括其中。面向云南种子植物特有属领域的语义检索能最大

7、限度地集成和利用各类云南种子植物特有属相关信息资源,快速、完整、智能地提供各种信息服务,这已成为研究和保护云南特有种子植物的新需求。目前,在这个领域没有专业的语义词典,并且没有较好的词语相似度算法,从而导致了云南种子植物特有属领域语义检索精度不高、扩展性不强等问题。针对上述问题,本研究协同植物学领域的研究人员完善了《同义词词林》并在此基础上提出了一种改进词语相似度的算法,并对该算法进行了试验。1材料与方法1.1同义词词林结构在国外通

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。