基于知网义原信息量的词语相似度计算方法

基于知网义原信息量的词语相似度计算方法

ID:10146539

大小:30.50 KB

页数:8页

时间:2018-06-11

基于知网义原信息量的词语相似度计算方法_第1页
基于知网义原信息量的词语相似度计算方法_第2页
基于知网义原信息量的词语相似度计算方法_第3页
基于知网义原信息量的词语相似度计算方法_第4页
基于知网义原信息量的词语相似度计算方法_第5页
资源描述:

《基于知网义原信息量的词语相似度计算方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于知网义原信息量的词语相似度计算方法摘要:国内利用知网计算中文词语相似度通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取。根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度。实验结果证明,该方法合理可行。关键词:义原信息量;角色关系;词语相似度;信息处理DOIDOI:10.11907/rjdk.151250中图分类号:TP391文献标识码:A文章编号:167

2、27800(2015)006014203作者简介作者简介:李国佳(1986-),男,山西大同人,硕士,华北水利水电大学软件学院助教,研究方向为自然语言处理;杨喜亮(1981-),男,河南郑州人,硕士,华北水利水电大学现代教育技术中心助教,研究方向为智能信息处理。0引言8词语相似度计算在信息检索、文本分类、信息抽取、机器翻译等领域有着广泛应用。目前,词语相似度的计算方法主要有两大类:一类是基于距离的方法,如基于WordNet中词语结点的距离来计算英语词语的语义相似度[1],基于知网(Hownet)义原距离来计算中文词语的语义相似度[23];另一类是基于语料统计的方法

3、,这类方法假设凡是语义相近的词语,它们的上下文也应该相似,利用上下文中词语的概率分布来计算词语相似度[45]。自1999年知网(HowNet)正式发布以来,其受到越来越多研究人员的关注。基于知网计算中文词语的相似度也诞生了很多方法[2,68],这些方法通常根据意义分解思想,将词语分解为更小单位(义原)参与相似度计算,再按照权重比例综合计算词语整体相似度。利用词语分解后的单位(义原)参与计算,割裂了描述词语的各个义原之间的关系,不能充分反应出词语间语义的相似性,计算结果也不够理想。本文从整体性角度出发,给出一种基于义原信息量计算中文词语相似度的方法。基于知网的分类体

4、系(Taxonomy),将义原及其角色关系整体作为词语相似度计算的基本单位,保留了描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想[4],用两个词语共有义原及其角色关系的信息量和所有义原及其角色关系的信息量来综合计算词语的相似度。81知网义原信息量1.1义原信息量其中,P(A)表示义原A在某个语料库样本空间中出现的概率。计算语料库样本空间中某个义原出现的概率很困难。知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,那么仅依赖知网分类体系本身而不需其它语料库,作为计算义原出现概率的样本空间也是

5、合理的。本文给出一种根据知网的分类体系来计算义原信息量的方法。由义原组成的知网分类体系是一棵概念分类树,在每类义原树状层次结构(以下简称为义原树)中,根结点义原是分类类别,是最大的分类,其它义原都是根结点义原的子孙。可以认为,分支结点义原包含越多的子孙结点,其信息量越小。叶子结点是最小的分类,所有叶子结点的信息量是相同的。1.2义原及其角色关系的信息量在知网的知识词典中,每个词语由DEF来描述其概念。将DEF分为两部分:主类义原和特性描述部分。定义1:义原及其角色关系。在词语概念DEF的特性描述部分中,将义原及动态角色与特征(EventRoleandFeature

6、s)[9]的层次结构的组合称为义原及其角色关系。8定义2:主类义原。在词语概念DEF中,把描述词语概念最左边的第一个义原称为主类义原,也称为第0层义原及其角色关系。例如词语“病菌”的一个概念:DEF={bacteria

7、微生物:domain={medical

8、医},modifier={able

9、能:scope={ResultIn

10、导致:result={disease

11、疾病}}}}。在“病菌”的DEF中,将“bacteria

12、微生物”称为主类义原,其它部分是特性描述部分。在特性描述部分中,将“domain={medical

13、医}”、“modifier={able

14、能

15、}”称为DEF的第一层义原及其角色关系,其中包含两个本层义原“medical

16、医”和“medical

17、医”;把“scope={ResultIn

18、导致}”称为第二层义原及其角色关系,包含一个本层义原“ResultIn

19、导致”,将“result={disease

20、疾病}”称为第三层的义原及其角色关系,包含一个本层义原“disease

21、疾病”,依次类推。其中,I(pj)表示r所包含的第j个义原pj的信息量。例如在词语“病菌”的DEF中,每层的义原及其角色关系中包含的本层义原信息量均为3.346,根据式(4)可得“病菌”的义原及其角色关系的总信息量为7.946。8在知网中

22、,包含几种

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。