地名本体实体与关系抽取研究

地名本体实体与关系抽取研究

ID:32722899

大小:2.81 MB

页数:53页

时间:2019-02-15

地名本体实体与关系抽取研究_第1页
地名本体实体与关系抽取研究_第2页
地名本体实体与关系抽取研究_第3页
地名本体实体与关系抽取研究_第4页
地名本体实体与关系抽取研究_第5页
资源描述:

《地名本体实体与关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、——..第二章语料库的构建—————————————————————————————————二__二二∑二二二二二==.一第二章语料库的建设无论是命名实体识别还是关系抽取,都需要一个很大的语料库做支撑。无论是有指导的方法还是无指导的方法,都需要标注好的熟语料来训练模型。目前,公开的语料库很少,可以使用的语料主要来自ACE的语料。ACE所要抽取的关系是比较宽泛的关系,这两个领域比较偏重于新闻和广播领域,它构建的主要目的是给研究人员提供抽取的数据基础,研究人员不用将精力花在语料的准备上,从而可以将精力完全放在抽取方法的研究上,更好的提高抽取性能。但是本文需要研究的任务是

2、地名本体的实体和关系抽取,ACE的语料不能满足本文的需求,本文需要根据自己的领域特点和抽取需求,建立自己的地名领域的语料库。ACE的语料库在信息抽取领域得到了广泛的应用,因此本文深入研究了ACE的标注规范,学习ACE,建立地名本体,确定地名相关实体以及关系的分类结构,完成自己的地名领域的语料库的建设。2.1ACE实体和关系类型体系简介2.1.1实体体系ACE的实体是指现实世界中的一个对象或者对象的集合。在ACE的语料库中定义了7个大类,其中,每个大类又分为了很多个小类。这七个大类分别是:1.人物:指人或者人的集合,如张三,李四,家庭等。2.组织:指公司、机构以及其他

3、团体,它的小类包括政府机构、商业组织、教育机构、非赢利性机构和其它团体。3.设施:指房屋等存在时间较长的人造设施,它的小类包括工厂、楼宇、管道、道路、障碍物和其它设施等。4.处所:指地理概念上的实体,它的小类包括地址、边界、天体、水域、陆地区域、城镇区域等。5.地理政治实体:指由政治或社会群体所定义的地理区域。它的小类包括洲、国家、州(省)、地区、居民中心和其它小类。——第二章语料库的构建————————————————————————————————————————二_—二二二二==————一.一6.车辆:泛指各种交通工具,它的小类包括空中、陆地、水面和其它交通工

4、具等。7.武器:它的小类包括钝器、爆炸物、利器、化学武器、生物武器、射击武器、投掷武器等。2.1.2关系体系ACE的关系指的是两个实体间的有意义的关联。ACE定义了七大类关系,其中每种关系有很多小类。1.物理位置关系:指实体地理位置上的关系,它的小类包括位于(Located)、接近(Near)和部分一整体(Part-1ihole)等。2.人物一社会关系:描述人物实体之间的关系,因此它的两个论元仅局限于人物,并且论元之间也没有顺序关系。它的小类包括商业关系、家族关系和其它关系。3.雇用~组织关系:指人物和组织之间的雇用关系。4.施事关系:指施事者和施事对象之间的关系,

5、它的小类包括用户/拥有者、发明者/制造者和其它等。5.人物/组织附属关系:指人物和组织之间的关系,它的小类包括民族、意识形态和其它等。6.GPE附属关系:指人物或组织和GPE之间存在的关系,如居住关系。7.篇章关系:指在篇章中存在的部分一整体或成员关系,如短语“Lotsofapples”中的“Lots’’和“apples”就存在着篇章关系。2.2地名本体实体和关系类型体系概述ACE的实体和关系类别并不适合地名领域的抽取需求,在地名领域中,我们所要抽取的关系是地名相关的实体之间的关系,如地名和经纬度之间的关系,地名和历史地名之间的关系,地名和地名之间的关系等。为了明确

6、地名领域相关实体以及关系的类别,从而制定标注规范,本文结合应急管理领域中对地名抽取的需求、中国地名分类编制规范聆71和提出的本体来编制标注的内容和规范。地名本体(ToponymOntology)如图2-1所示:一第二章语料库的构建————————————————————————————————————————————一_一图2-1地名本体(ToponymOntology)模型图2.2.1地名本体实体体系地名本体实体的体系及其标注说明如下:(1)地名:地名是人们对具有特定方位、地域范围的地理实体赋予的专有名称口71。其标签为DM。(2)标准地名:使用规范的语言文字书写

7、,并经过官方认可的地名全称口7J。其标签为BZDM。(3)地名简称:经过官方认可的约定俗成的地名的简单称谓371。其标签为DMJC。(4)地名别名:某一地理实体的标准地名及其简称以外的其它现行名字聆引。其标签为DMBM。(5)现今地名:目前正在使用的地名。其标签为XJDM。(6)历史地名:过去曾经使用过、目前已不再使用的地名,其是对时代和社会的记录。其标签为LSDM。(7)数字编码地名:随着时代的进步,电话号码,IP,邮政编码具有了地名的种种特征,可以看作是地名的新时代的扩展b8

8、。其标签为SZBMDM。(8)地名含义:地名含义是指地名本身表现出的地方、民族、感

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。