改进基于《知网》词汇语义相似度计算

改进基于《知网》词汇语义相似度计算

ID:6033868

大小:33.50 KB

页数:10页

时间:2017-12-31

改进基于《知网》词汇语义相似度计算_第1页
改进基于《知网》词汇语义相似度计算_第2页
改进基于《知网》词汇语义相似度计算_第3页
改进基于《知网》词汇语义相似度计算_第4页
改进基于《知网》词汇语义相似度计算_第5页
资源描述:

《改进基于《知网》词汇语义相似度计算》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、改进基于《知网》词汇语义相似度计算  摘要:针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明,采用改进方法得到的聚类结果F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性。关键词:知网;义原;概念;权重;语义相似度中图分类号:TP391.1文献标志码:A0引言

2、10词汇语义相似度计算在文本聚类[1]、信息检索、机器翻译等领域有着广泛应用。当前词汇语义相似度计算方法大致可分为两类:一类利用大规模语料库进行统计,依据词汇上下文信息的概率分布进行计算;另一类基于某种世界知识来计算,通常是基于某个知识完备的语义词典中的层次结构关系进行计算,例如荀恩东等[2]采用WordNet进行英语词语间的相似度计算,刘群等[3]提出基于《知网》的词语相似度计算等。基于语料库的方法比较精准,但计算比较复杂并且结果容易受训练数据的噪声影响;而基于语义词典的方法简单有效,比较直观,但对词典依赖

3、性较大,且易受人主观意识影响,当前词汇语义相似度计算大多采用该方法。《知网》是一个以汉语和英语的词语所代表的概念(义项)为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4]。在《知网》中,词汇对应于若干概念,而概念是以义原为基础通过知识库描述语言进行定义的,即概念的义项表达式,义原又通过多种关系进行描述,如上下位关系等,其具体含义可查阅相关文献[3-4]。目前大多数学者基于《知网》的词汇语义相似度计算思想是整体相似度可由部分相似度加权平均进行计算。其中比较有代表性的方法如

4、刘群等[3]首先提出的仅考虑义原之间距离因素的词汇语义相似度计算方法,李峰等[5]在前者的基础上所提出的考虑义原深度因素计算方法,Dai等[6]提出的基于《知网》的中英文词间相似度算法,刘青磊等[7]提出的基于信息论的计算方法,王小林等[8]提出的变系数计算方法等。然而文献[9]指出知识库描述语言对概念的描述具有线性关系,但上述计算方法都没有充分考虑该线性关系,使得词汇相似度计算结果不够合理。10本文在深入研究和分析知识库描述语言的结构特征以及现有计算方法基础上,提出一种充分考虑知识库描述语言线性描述特征的词

5、汇语义相似度计算方法,使得词汇间的相似度计算结果更为合理。特别指出,若非特殊说明本文所述的《知网》都是指《知网》2000版。1词汇语义相似度计算当前基于《知网》的词汇语义相似度计算大致可以分为三个过程:义原相似度计算、概念相似度计算和词汇语义相似度计算。各具体的计算过程如下所述。1.1义原相似度计算《知网》中义原间的相似度计算主要利用义原层次体系中义原之间的各种关系进行计算,例如刘群等[3,5-6]利用义原之间的上下位关系进行计算等。本文选取当前计算方法中两种比较有代表性的义原相似度计算公式进行讨论。10分析

6、以上两种公式可以看出,式(1)只考虑了义原层次体系中义原之间的距离因素对义原相似度的影响。例如,义原{“虫”,“鱼”}与{“物质”,“精神”}分别在义原层次树中的路径距离相等,则它们的相似度相等。但在人们直观理解上,显然前者之间的相似性应高于后者。所以只考虑义原间的距离因素往往计算得到的结果过于粗糙,不够合理。式(2)在式(1)的基础上充分考虑了义原在义原层次树中的深度因素对义原相似度的影响。同样以上述例子进行说明,前一组义原在义原层次树中的深度都为6,而后一组的深度都为2,则依据式(2)进行相似度计算,前者

7、之间的相似度值大于后者,更加符合人们的主观理解,所以采用式(2)计算得到的结果较式(1)更为合理。1.2概念相似度计算当前对于概念相似度计算也有许多方法,按照权重系数设置方式不同大致可以分为以下两类:2改进的词汇语义相似度计算文献[9]指出知识库描述语言的描述方式具有线性顺序,它对义原的顺序是有规定的,如果破坏了这种顺序,就会导致意义上的错误。但当前的计算方法由于没有充分考虑义项表达式中义原描述式之间的顺序关系,使得概念的相似度计算不够合理,进而导致词汇间的语义相似度计算结果与人们的主观理解不一致。本文主要针

8、对该缺点对现有的概念相似度计算方法进行改进,并结合1.1节和1.3节中所提出的方法进行词汇间的语义相似度计算。由于虚词所对应概念的定义方式比较简单,在此就不作赘述。接下来,本文就如何在概念相似度计算过程中充分考虑知识库描述语言对概念描述的线性关系进行讨论。2.1位置相关的义原描述式权重分配10分析1.2节中介绍的概念相似度计算方法可知,采用固定权重分配方案的方法需要在实际应用中设定权重系数,结果的合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。