欢迎来到天天文库
浏览记录
ID:34385884
大小:6.52 MB
页数:55页
时间:2019-03-05
《中文文本中地理实体属性信息抽取方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要自然语言是人类空间认知结果的最重要表现形式。作为一种最常用的自然语言载体,自由文本中蕴含着丰富的地理空间信息,包括地理命名实体、实体属性和实体间的空间关系等。从非结构化文本中获取结构化的空I、日J信息不仅能够丰富GIS的信息来源,而且能够提升GIS的表达能力和可理解性。作为地理实体的形象化表达,实体属性是文本中最重要的地理信息之一。本文在综述国内外相关研究进展的基础上,重点探讨中文文本中地理实体属性信息的抽取方法。主要内容包括以下几个方面:l、地理实体属性的结构化表达:结合现有GIS地理实体属性信息的描述模型与表达方法,分析地理实体属性信息运用自然语言描述涉及的元素及其语
2、义结构,探求面向自然语言的地理实体属性信息结构化表达方式,设计地理实体属性标记语言,并制定地理实体属性信息标注规范。2、地理实体属性信息抽取:针对文本中地理实体属性信息描述的特点,探求基于属性关键词和规则库驱动的属性抽取方法。在数据预处理和地理实体识别的基础上,先进行属性关键词的识别,再通过构建测试规则库和抽取规则库完成地理实体属性抽取的任务。3、原型系统设计与实验验证:结合文本中地理实体属性的抽取方法,设计并开发了属性标注系统和抽取系统。属性标注系统基于GATE平台下的组件丌发,该系统以设计的属性标注语言作为规范来进行标注,手工标注的数据作为标准数据用来验证抽取系统的效果。
3、抽取系统的核心是地理实体属性抽取模块,包括预处理子模块、地理实体识别子模块、属性抽取子模块。属性抽取子模块中包含抽取所需的属性名关键词表和规则库等。最后验证分析表明,系统能够达到较高的抽取正确率和召回率。关键词:中文文本、地理实体、属性抽取、属性关键词、测试规则库、抽取规则库AbstractNaturallanguageisthemostimportantmanifestationsoftheresultofhumanspatialcognition.Asoneofthemostcommoncarrierofnaturallanguage,freetext,containsa
4、wealthofgeospatialinformation,includinggeographicnamedentities,entity’Sattributesandspacerelationsbetwwenentities.StructuredspatialinformationobtainedfromunstructuredtextisnotonlyarichsourceofinformationforGIS,butCanenhancetheexpressionandintelligibilityofGIS.AsthefigurativeExpressionofgeog
5、raphicentities,entity’Sattributeistheoneofthemostimportantgeographicalinformation.Basedonthedetailedreviewofprogressonthebasisofrelevantresearchathomeandabroad,thispaperfocusonhowtoextractentity’Sattributefromtext.Themaincontentsincludethefollowing:1、Thestructuredexpressionsofthegeographice
6、ntities’attributes.Combiningtheexistingdescribingmodelandexpressionofgeographicentities’attributesinformationinGIS,thispaperanalysetheelementsandthesemanticstructureofnaturallanguagedescriptionforgeographicentities’attributesinformationandconstitutethestructuredexpressionforgeographicentiti
7、es’attributeinformationusingnaturallanguageanddesigngeographicentities’attributesmarkuplanguageanddeveloptheannotationschemeforgeographicentities’attributeinformation.2、Extractionofgeographicentities’attributesinformation.Basedonthecharacteristicsofdescr
此文档下载收益归作者所有