欢迎来到天天文库
浏览记录
ID:5787223
大小:1.50 MB
页数:129页
时间:2017-12-24
《on the named entity based relation extraction and event 》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、OntheNamedEntitybasedRelationExtractionandEventSupportedWebPageRepresentationDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeofDoctorofPhilosophyinScienceDiNan(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLiMAY,2010Onthe
2、NamedEntitybasedRelationExtractionandEventSupportedWebPageRepresentationDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeofDoctorofPhilosophyinScienceDiNan(ComputerScienceandTechnology)DissertationSupervisor:ProfessorXiaomingLiMAY,2010版权声明任何收存和保
3、管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人并复制、抄录、拍照、或以任何方式传播。否则,引起有碍作者著作权益之问题,将可能承担法律责任。基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究摘要:命名实体是现实社会中一个具体的事物,而在Web上的网页文本中有大量的有关命名实体的内容。这些内容中有些是描述实体的静态属性信息,例如实体的属性,实体之间的关系。描述实体静态信息的文本一般为较短的包含实体的单个句子,而且其信息内容不会随时间产生明显变化。而另一些包含实体的文本内容描述的是实体的动态信息,主要是描述实体参与到新闻事件中,并且
4、在新闻事件中的行为。包含后一种实体信息的内容较之前一种内容要更长,一般包含若干句子构成一段内容相对统一的文本子段,而且其内容信息也会随时间变化而发生明显变化。本文希望通过采用对网页文本中包含实体的上下文进行分析挖掘这一基本方法,分别解决利用实体共现文本发现实体间关系的问题和以实体为核心的事件发现与追踪的问题。概括而言,本文在这两个研究问题上的主要贡献包括: (一)Web实体关系实例的提取实体关系在网页文本中的一种重要体现形式,是处于特定关系的实体对共同出现在一段描述这种关系的文本中。这里我们定义这段描述特定实体关系的文本为web实体关系实例。能否提取足够数量与
5、较高质量的Web实体关系实例是能否有效地发现实体间关系的重要前提工作。已有的使用命名实体上下文来发现命名实体之间关系的工作,一般是直接使用包含命名实体对的句子作为表示关系对的特征。这种做法存在两个明显的问题:其一,在海量网页文本中包含命名实体共现的句子除了描述实体间关系的Web实体关系实例之外,还可能是描述两个实体同时参与到一个事件这样的动态特征。其二,由于描述实体关系的句子长度比传统文本分类语料的长度要小很多,即使描述相同类型实体关系的文本也可能在词汇特征上有很大差异。本文中的实验也验证了直接使用网页文本中实体上下文作为实体关系对特征会对实体关系发现带来的负
6、面影响。VIII基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究因此,我们提出了描述实体关系的实体上下文的筛选与扩充这两个新的研究问题。在此基础上,本文提出了一种有效的方法来解决上述两个问题。该方法首先利用对Wikipedia和百度百科中描述实体关系的文本进行分析挖掘,学习得到描述实体关系的语言模型,利用贝叶斯公式计算实体共现句子包含实体关系信息的概率并依此对共现句子进行筛选;其次,该方法利用搜索引擎作为媒介,通过将描述实体关系的实体共现文本作为查询投送到搜索引擎,得到在互联网中其他描述同一实体关系对的文本作为描述该实体对的文本的扩充,通过迭代执行
7、实体对上下文的筛选与扩充,最终得到表示每个实体对的文本特征。 (二)基于图扩散的实体关系类型标注方法通过上述工作,我们将每个实体关系对表示为该实体对在网页中的web实体关系实例,下一步的工作是对这些web实体关系实例标注其所描述的关系类型。在本文的工作中,我们使用NIST举办的ACE(AutomaticContentExtraction)评测中提供的命名实体关系分类体系,这一体系包括三大类实体间关系:人物-人物间关系、人物-机构间关系、人物-地点间关系,以及11个具体关系子类。为了确定每个实体关系对的关系类型,前期研究者所使用的实体关系类型标注方法主要是以一定
8、数量的、有标注类别的、描述各类实体关系
此文档下载收益归作者所有