面向web2.0的二元人物关系抽取研究

面向web2.0的二元人物关系抽取研究

ID:35101936

大小:1.46 MB

页数:56页

时间:2019-03-17

面向web2.0的二元人物关系抽取研究_第1页
面向web2.0的二元人物关系抽取研究_第2页
面向web2.0的二元人物关系抽取研究_第3页
面向web2.0的二元人物关系抽取研究_第4页
面向web2.0的二元人物关系抽取研究_第5页
资源描述:

《面向web2.0的二元人物关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号______________________________密级______________________________UDC______________________________编号______________________________全日制专业学位硕士论文面向Web2.0的二元人物关系抽取研究学位申请人:徐力学科领域:软件工程校内导师:黄卫春教授答辩日期:独创性声明本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含

2、其他人已经发表和撰写的研究成果,也不包含为获得华东交通大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人签名_______________日期____________关于论文使用授权的说明本人完全了解华东交通大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。保密的论文在解密后遵守此规定,本论文无保密内容。学生本人签名日期校内导师签名日期

3、面向Web2.0的二元人物关系抽取研究摘要随着计算机的发展,越来越多的信息出现在互联网上。但是如何从海量知识里通过自动化的手段,获取自己需求的信息成为了一个计算机领域的难题,在这种强烈的需求下,信息抽取技术应运而生。人物实体关系抽取作为信息抽取的一个重要分支,因为有着广阔的应用前景,而受到众多研究人员的关注。本文根据以往人物关系抽取的研究成果,针对传统关系抽取流程中存在关系描述词“多词同义”、抽取模板质量不高与判断人物实体关系计算量大等现象,融合了机器学习里半监督学习的特性、信息论里信息增益的特点与向量空间模型里文本相似性计算的

4、性质,提出了一种新的面向Web2.0的二元人物关系抽取方法。针对上述不足,本文提出了以下改进方案:(1)针对中文语句中“多词同义”的现象,本文提出了一种基于众包模式的关系描述词扩展方法。通过人工给定部分特定关系描述词,利用《知网》与《同义词词林》进行第一次扩充,并把扩充后的集合分发给大众网络,让语言爱好者们对该集合进行第二次扩充,然后选取经过验证的同义词作为关系描述词。(2)本文提出了一种半监督学习与信息增益相融合的关系抽取模板生成算法。对于以往手工创造模板费时费力的不足,本文在模板创建的过程中,融入了半监督学习的方法。首先建立

5、部分手工标注样本,在关系抽取模板建立过程中不断地自举迭代,从而产生更多的关系抽取模板,针对语句中每个词语由于所处位置的不同而携带不一样的信息量这一特点,本文利用信息增益相关理论来确定模板的上下文窗口值。(3)针对句子中含有多个可能包含目标关系的人物实体对的现象,本文提出了一种基于模板匹配的候选实体对筛选方法。该方法通过判断模板里的实体对与关系描述词之间的相对位置,进而筛选出句子中包含该相对位置信息的实体对作为候选实体对。(4)针对向量空间模型文本相似度计算中存在大量0*0=0的无效运算,本文提出了一种基于非零权重筛选优化的候选实

6、体对验证方法,通过该方法可有效地优化特征权重矩阵的维度,并在相似性计算前进行非零权重判断,从而减少计算量。关键词:人物实体,关系抽取,信息增益,机器学习ITHERESEARCHOFBINARYPERSONALRELATIONEXTRACTIONONWEB2.0ABSTRACTWiththedevelopmentofcomputers,moreandmoreinformationappearsontheInternet.Butithasbecomeadifficultprobleminthecomputerfieldtosearc

7、hourusefulinformationautomatically.Inordertoresolvethisproblem,informationextractiontechnologyemerges.Becauseofthebroadapplicationprospects,manyresearcherspaymoreattentiontotheextractionofPersonalEntityRelationwhichdrawnasanimportantbranchofinformationextraction.Fort

8、raditionalprocessofrelationextraction,ithasmanyproblemslikethatithasmanywordstodescribethesamerelationship,extractiontemplatequalit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。