一种基于语义体系的同义词识别研究

一种基于语义体系的同义词识别研究

ID:38276357

大小:171.08 KB

页数:5页

时间:2019-05-25

一种基于语义体系的同义词识别研究_第1页
一种基于语义体系的同义词识别研究_第2页
一种基于语义体系的同义词识别研究_第3页
一种基于语义体系的同义词识别研究_第4页
一种基于语义体系的同义词识别研究_第5页
资源描述:

《一种基于语义体系的同义词识别研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第13卷第1期淮阴工学院学报Vol.13No.12004年2月JournalofHuaiyinInstituteofTechnologyFEB.2004一种基于语义体系的同义词识别研究章成志(南京工业职业技术学院工商管理系,江苏南京210016)摘要:针对基于字面和词素相似度识别同义词的不足之处,首次引入5同义词词林6(以下简称5词林6),作为语义体系,提出了基于5词林6语义体系的同义词识别算法,并进行了词汇间的语义相似度度量,实现了同义词识别。实验结果表明,此方法在效率上远高于基于字面、词素相似度识别方法。关键词:同义

2、词识别;5词林6;语义词典;相似度算法中图分类号:TP311文献标识码:A文章编号:1009-7961(2004)01-0059-04方面进行深入的研究。1同义词识别研究概述在信息检索、信息提取和数据挖掘等研究领2基于字面、词素相似度算法的不足之处域中,常常涉及到同义词这一概念,不少的自然语字面相似度算法主要依据字面相似性原理,即言处理系统(如信息检索系统、机器翻译系统等)中汉语中绝大多数同义词、近义词都含有相同字的特也逐渐增加了同义词控制这一功能。随着海量信息点,计算词与词之间的关联程度。这一做法简单易的出现和不断增加

3、,同义词控制显得更加重要,例行,效果尚可,但同时也存在着许多不足的地方,限如在信息检索系统中,利用同义词控制,可以更好制了该算法对同义词的识别率。字面相似度算法主地识别文章的主题,便于文章的自动分类;在检索要不足之处是:¹概念区分性差,即以字面相似作为阶段,利用同义词扩展检索可以在不影响查准率的同义词判别依据,由于没有考虑语义、语境等因素容条件下提高查全率,提高了信息检索系统的性能;易造成识别出/虚假0的同义词。º不能识别等义词,它是实现概念检索的一个途径,具有概念检索功能前面说过,等义词在词形上往往有很大的差别。»反的

4、网络信息检索工具可借助于一个同义词表对用义词和相关词识别难,许多反义词在词形上差别较户输入的关键词自动添加同义词,有助于提高查全大,相关词更是如此,只有采用其他的方法,如计算[1]率,但不降低查准率。语言学和统计学上的方法才能识别,利用字面相似对同义词识别的研究最初主要来自于情报界,度识别显然力不从心。同义词控制作为一种有效的检索后控制方式已被基于词素的相似度算法以词素作为同义词识越来越多的信息检索系统所采用。20世纪末,由于别的基本单位,解决了传统字面相似度算法中由字网络信息的快速膨胀,用户在查找网络信息遇到许为单位而

5、造成的缺陷:减少了歧义、不再出现同一多问题,为了提高查全率,许多搜索引擎都推出同词素中字的权重有大有小的现象、引入语义辅助使义词扩展检索,但实际运用的效果不是识别字面不相似而含义相同的词素成为可能。基于很明显。同义词的识别、挖掘研究将成为计算词素的算法从理论上较基于字面相似度的算法有[2][3][4][5][6]机界、情报界的一个新的研究热点。由较大改进,但同时又由于它是在一定的语义范畴体于我国对后控制词表的研究和实践起步较晚。已有系下设计的,不可避免地存在着许多不足之处:¹的研究只限于较小范围和规模,有些研究还停留在词

6、素多义性难以消除,词素的数量要远远小于一般理论探讨上,离实用化还有一段很长的距离。从信词汇的数量,单一类目容易造成词素难以归类,如息检索和Web挖掘的智能化的趋势来看,今后的概对于0组成0这个词素的归类对象可能是:E12.1.念检索的实现必将要求现在对同义词识别和挖掘7、M4.3、X2.02等,有可能是指因此适用于词素的语义范畴体系有待进一步改进。º人工标注词素、收稿日期:2003-12-20;修改日期:2004-01-25定义其范畴代码工作量巨大,词素标注更新慢,不作者简介:章成志(1977-),男,安徽安庆人,南京工

7、业职业技能满足网络时代机器自动化的需要。由于要对每个术学院讲师,理学硕士。词素建立字典所定义的词条格式,工作量大,限于60淮阴工学院学报第13卷时间和人力,朱毅华的系统中所含的词素及其定义(大类)=>(大写英文字母)仅有1788条,这不能满足实际的需求。(中类)=>(小写英文字母)(小类)=>(数字)(数字)综上所述,字面相似度算法实现简单、自动化(小组)=>(数字)程度高,但识别率不太高,而词素相似度算法有较例如,将0贸易0进行编码后,得到的语义编码高的识别率但需大量人工参与,我们将结合二者的为:He010101,与其

8、相对应的大类、中类、小类、小组长处,使得两种优势互补。下文将提出同义词识别编号分别为:(H)、(e)、(01)(01)、(01)。的新的算法,即基于5词林6语义体系的同义词挖掘为了后续计算的方便,再增加一个虚拟结点方法。O,形成图2所示的树结构。3基于5词林6语义体系的同义词挖掘3.15词林6简介[8]图2语义距离的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。