基于句法语义特征的中文实体关系抽取

基于句法语义特征的中文实体关系抽取

ID:22207270

大小:24.50 KB

页数:5页

时间:2018-10-27

基于句法语义特征的中文实体关系抽取_第1页
基于句法语义特征的中文实体关系抽取_第2页
基于句法语义特征的中文实体关系抽取_第3页
基于句法语义特征的中文实体关系抽取_第4页
基于句法语义特征的中文实体关系抽取_第5页
资源描述:

《基于句法语义特征的中文实体关系抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于句法语义特征的中文实体关系抽取  摘要:实体关系特征的选择是实体关系抽取的核心问题。在以前的研究主要要是以实体原始特征和词法特征来体现实体关系,在一定程度上来说很难再将抽取效果进一步提高。本文在传统的研究基础之上,阐述一种以语义和句法为主要特征进行抽取的新方法,并且融入了谓词、句法和语义等一些角色,将SVM作为辅助工具,将真实的新闻消息进行试验。  关键词:句法语义特征;关系抽取  相对而言,由于中文语言结构的独特性和语义的复杂性,中文实体关系抽取研究整体上与国外的研究还存在一定差距,常用的基于浅层

2、语法分析获取特征的方法已经达到瓶颈。本文也将采用SVM模型训练语料,但于以往不同的是,该方法扩展了实体关系特征的选择范围,除了传统的词法特征、实体原始特征外,又选择了句法特征、语义特征等作为实体关系特征,主要包括语义角色标注、依存句法关系、核心谓词特征等,并依据中文的语法特点对这些特征进行有机整合,得到二元实体对之间的丰富关系特征,最后交由SVM进行训练和测试。  一、本文的主要研究方法  (一)SVM的实体关系与句法语义特征抽取方法过程  研究方法依据LTP-Cloud对原始语料进行简单的初步处理,利

3、用LTP-Cloud对原始语料的词、句法作为分析结果的基础,之后生成二元实体对,将实体对的特征数据采集起来,转化成训练文本,然后再将训练文本交给SVM进行强化训练。这不仅是本文的创新内容还是最主要的核心部分,因为LTP-Cloud主要以单个句子为研究对象,这就需要我们获取命名实体信息,将实体句子相互结合,形成实体对,假如说只有一个实体或者是没有实体,那就说明不存在真正的实体关系,就需要我们将其去掉。  (二)实体关系的基本特征  常规的实体关系特征主要从词法分析结果来获取,以往的研究已经表明了这些特征的

4、有效性。面向句子中所有实体组成的二元实体对,本文选择的基本实体关系主要特征如下:  1.实体种类。目前LTP-Cloud能够识别的实体种类有人名、地名、组织机构名。  2.实体长度。根据命名实体结果的标识信息中,获取多词实体的边界,并根据其首尾词的位置来计算实体长度。  3.实体内容。这里采用词袋机制将实体内容由字符转换为数字。  4.实体中各词的词性标注。  5.实体的上下文环境。包括实体前后两个词的内容以及词性标注信息。  (三)句法语义的主要特征  本方法对处理结果再进一步的深入研究,可以得到更多

5、的句法语义特征。  1.句法依存关系。将获取实体对中每一个实体在原句中所属的句法依存关系值。  2.实体与核心谓词的距离。根据实体首词在句中的位置和核心谓词的位置,计算出每一个实体与核心谓词的距离。  3.语义角色标注。LTP-Cloud的初步结果中包含了针对所有谓词的语义角色标注结果,但是只有基于核心谓词的语义角色标注的覆盖度是最广的,所以这里也仅选择基于核心谓词的语义角色标注结果作为这一特征来源,获取实体对中每一个实体所属的语义角色成分,将其作为实体关系的一种特征。  每组实体对的实际特征个数会随着

6、实体长度的不同而不同;这些特征之间的相对位置并不是任意的,需要根据一定的规律合理安排。  二、试验方法与结果分析  (一)实验结果评价标准  预设了4种实体关系种类:人名实体与组织机构实体之间的雇佣关系、组织机构实体与地名实体之间的位于关系、属于同一种实体类型的同类关系和无关系。由于本文亦将实体关系抽取过程看作是分类的过程,所以这里的评价方式也采用常规的准确率、召回率和F1值。  因为分类标注问题不同于信息检索问题,所以应计算所有实体关系种类的准确率和召回率的平均值,以此作为整体抽取结果的准确率和召回率

7、,并由此得出整体F1值。  (二)实验设计思路  本方法用1998年1月份的《人民日报》所有版面内容作为语料,共含有4万多个中文句子。由于LTP-Cloud需要以句子为基本处理对象,所以还需采用基于规则的方法将语料内容进行分句。将上述语料通过LTP-Cloud处理后,可得到含有约8.5万个唯一实体的处理结果,由此可得到约3.6亿个二元实体对,将其中的80%作为训练语料,20%作为测试语料,进一步分析出实体对中句法语义特征数据,并人工添加实体关系分类标注,最终形成训练语料。采用libSVM作为辅助工具,在

8、SVM的训练过程中,选择RBF作为核函数,采用交叉验证法,得到最优参数c=2.0,g=0.5,CVrate=73.1905。实验程序采用Python语言编写实现。  (三)实验结果分析  为了与传统研究方法进行比较,对比组选取传统的基本特征,实验组在原有传统基本特征的基础之上加入句法语义特征。  通过以上的统计结果研究显示,实验组的抽取效果很明显的优越于对照组。同时位于关系、同类关系和无关系的效果更加明显一些,所以说本研究方法是有一定的实际

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。