欢迎来到天天文库
浏览记录
ID:36853852
大小:1.27 MB
页数:6页
时间:2019-05-16
《一种改进的词义排歧算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1482010,46(19)ComputerEngineeringandApplications计算机工程与应用一种改进的词义排歧算法郭志兵,黄广君,卢朝华GUOZhi-bing,HUANGGuang-jun,LUChao-hua河南科技大学电子信息工程学院,河南洛阳471003ElectronicInformationEngineeringCollege,HenanUniversityofScience&Technology,Luoyang,Henan471003,ChinaE-mail:dabingraen@163.comGUOZhi-b
2、ing,HUANGGuang-jun,LUChao-hua.Modifiedwordsensedisambiguationalgorithm.ComputerEngineeringandApplications,2010,46(19):148-150.Abstract:ThereisthefaultofblindnessintraditionaryChinesewordsensedisambiguationalgorithmbasedonprimitiveco-occurrencedata.Thisthesisputsforwarda“Dou
3、ble-Distance”wordsensedisambiguationalgorithm,whichconsideringtwoparametersofdistancewhencalculatestheserelation-modulusbetweenthemaltivocalwordandthecharacter-words,thespacedistancebetweenthecharacter-wordsandthemaltivocalword,thespacedistancebetweenthecurrentlymaltivocalw
4、ordandthesamemaltivocalwordwhichhasbeenselectedsenseatthelatest.Theexperimentshowsthatthemodifiedal-gorithmareeffective.Keywords:primitive;relation-modulus;wordsensedisambiguation摘要:针对传统基于义原同现频率的汉语词义排歧算法的“盲目性”,提出一种“双距离”词义排歧算法,即在计算待排歧词各义项与特征词之间的相关系数时,考虑两个距离因素:特征词与待排歧词之间的空间距离
5、;最近选择该义项的同形歧词与该待排歧词之间的空间距离。实验表明,改进的算法是有效的。关键词:义原;相关系数;词义排歧DOI:10.3778/j.issn.1002-8331.2010.19.043文章编号:1002-8331(2010)19-0148-03文献标识码:A中图分类号:TP3911引言tance)词义排歧算法,即考虑两个空间距离因素对词义表达的词义排歧是计算语言学和自然语言处理领域中一个重要影响,简称Db-Dt词义排歧算法。的研究课题,也是该领域的热点研究问题之一。20世纪50年代以来出现了多种词义消歧方法:基于人工智能的方法、基
6、于2相关知识辞典的方法、基于语料库的方法。近年来,随着语料库的兴2.1知网起,基于语料库的词义排歧技术占主导地位。《知网》(Hownet)是一个以汉语和英语的词语所代表的概Yarowsky(1994)[1]从已标注语料库中获取排岐知识,这种念为描述对象,以揭示概念与概念之间以及概念所具有的属方法的主要缺陷是需要人工标注大量的语料。Yarowsky性之间的关系为基本内容的常识知识库。它着重反映概念的(1995)[2]从未被标注的语料中获取排岐知识,这种方法存在数共性和个性、概念之间和概念的属性之间的各种关系。据稀疏问题,同时,由于未对语料进行加
7、工,在获取的知识中在《知网》中将义原(primitive)定义为最基本的、意思不能存在一定的噪音。杨尔弘[4]采用Luk(1995)[3]的概念同现思再分割的最小语义单位,词语的概念定义为义原的组合,即:想,提出基于义原同现频率的汉语词义排歧算法,该算法在一概念=(f义原1,义原2…义原n)(其中n为知网中义原总数)。定程度上克服了数据稀疏问题,但没有考虑不同义原在概念概念由一系列用逗号隔开的“语义描述式”解释,知网中有三表达能力上的区别。张瑾[5]提出一种改进算法,将义原分为四种语义描述式:独立义原描述式、关系义原描述式、符号义原类,并赋予
8、每类义原不同的权重,该算法进一步提高了排歧正描述式。独立义原描述式又分为第一独立义原描述式和其他确率,但忽略了上下文词语间距离[6]对词义表达的影响。独立义原描述式
此文档下载收益归作者所有