基于《知网》的汉语词语词义消歧方法

基于《知网》的汉语词语词义消歧方法

ID:30641057

大小:20.00 KB

页数:8页

时间:2019-01-02

基于《知网》的汉语词语词义消歧方法_第1页
基于《知网》的汉语词语词义消歧方法_第2页
基于《知网》的汉语词语词义消歧方法_第3页
基于《知网》的汉语词语词义消歧方法_第4页
基于《知网》的汉语词语词义消歧方法_第5页
资源描述:

《基于《知网》的汉语词语词义消歧方法》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于《知网》的汉语词语词义消歧方法摘要本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,计算歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。关键词词义消歧;知网;自然语言处理;依存句法分析自然语言中存在着大量的多义词,如何在给定的上下文中,确定其中各个词语在多个词义中选取正确的

2、词义,是词义消歧所应解决的问题。如果多义词的多个词义之间具有不同的词性,则通过词性标注就可以确定该词词义。所以本文所说的词义消歧,是指如何在词性相同的情况下选择多义词正确词义的问题。汉语词语的词义消歧开始于上世纪90年代后期,主要是利用词典提供的信息。出现了利用《现代汉语词典》释义文本、《同义词词林》、《知网》中的语义类,对实词多义进行消歧的方法,但是平均正确率并不是很高[1][2]。近年来,随着计算机存储容量和运算速度的提高,通过对大规模语料库的利用,出现了许多基于语料库统计的词义消歧方法。使消歧的准确率有了一定程度的提高,但是有些低频词,在语料中出现次数不多,很难搜集到它们的上下文

3、环境,存在着知识获取中数据稀疏以及自动学习课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果算法的参数空间过大问题。到目前,无论那种方法都没有很好地解决词义消歧问题[3]。其中一个重要的原因就是词义知识获取中的瓶颈问题,词义消歧知识库的质量已成为词义消歧成败的关键。本文提出了一种,该方法只考虑词汇句法之间的内在关联对特定环境中词义的贡献,借助依存文法分析来找出这种词义关联。假设不存在词义关联的

4、上下文对于歧义词语的特定词义贡献为0,存在语法关联的上下文对词义的贡献相互独立。选择与歧义词汇存在语法关联的上下文作为模型中的特征值,这样做既可以减少无关上下文对词义消歧产生的噪音,又可以大幅度减少计算次数,在提高词义消歧准确率的同时,能够明显提高词义消歧的工作效率。“知网”是董振东先生花费十年时间编辑而成的语义词典,也是一款供自然语言处理工作者免费使用的完全共享软件。知网是一个以汉语和英语词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4]。知网作为一个知识系统,是一个网而不是树。它所着力反映的是概念的共性和个性,同时知网还着力反

5、映了概念之间和概念的属性之间的各种关系。知网知识库主要包括:①中英双语知识词典;②义原分类源文件;③知网管理工具;④知网说明文件(包括词类表和标识符号说明)等。本文采用的知网知识库文件主要有经过处理的①和②。义原分类源文件课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果在知网中,“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念,其中每个词的每一个义项分别对应于一个不同的概念。而“义

6、原”是基本的、不易于再分割的、没有歧义的最小单位。不同的义原组合构成了不同的概念定义。《知网》一共采用了1500多个义原,这些义原分为“Event

7、事件”等十多个大类、16种关系。在义原关系中最重要的还是上下位关系。2.中英双语知识词典《中英双语知识词典》中一共收录了12万多条记录,而每一个词语用一条或多条记录来表示,每条记录的词典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八项,例如“电脑”一词的概念的记录如下所示:NO.=2190W_C=电脑G_C=NE_C=W_E=computerG_E=NE_E=DEF=computer

8、电脑其中NO.为概念编号,W

9、_C、G_C、E_C分别是汉语的词语、词性和例子,W_E、G_E、E_E分别是对应的英语词语、词性和例子,DEF是知网对于该概念的定义。依存句法是由法国语言学家在其著作《结构句法基础》中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者[5]。二十世纪七

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。