欢迎来到天天文库
浏览记录
ID:10303257
大小:5.38 MB
页数:67页
时间:2018-07-05
《基于网络数据的中文公司实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10004密级:公开又邊乂學BEIJINGJIAOTONGUNIVERSITY顿士学位论文基于网络数据的中文公司实体关系抽取研究作者姓名孟蕾学科专业软件工程指导教师魏小涛副教授培养院系软件学院二零一八年三月硕士学位论文基于网络数据的中文公司实体关系抽取研究ResearchonRelationshipExtractionofChineseCompanyEntitiesBasedonWebData作者:孟蕾导师:魏小涛北京交通大学2018年3月学位论文版权使用授权书本学位论文
2、作者完全了解北京交通大学有关保留。、使用学位论文的规定特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,。提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘。学校可以为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:、备泰导师签名:签字日期:年<月日签字日期年月日>^丨Y密级:公开学校代码:10004北京交通大学硕士学位论文基于网络数据的中文公司实体关系抽取的研究Reth
3、eRelationshiExtractionofChineseComansearchonppyEntitiesBasedonWebData15121689:作者姓名:孟蕾学号:副教授导师姓名:魏小涛职称:硕士学位类别:工学学位级别学科专业:软件工程研宂方向:自然语言处理北京交通大学2018年3月i致谢在硕士学位论文完成之际,硕士研究生生涯也进入尾声。回顾将近三年硕士一,,研宄生学习与科研历程,感慨颇多在即将毕业之际衷心感谢每位支持和关。心我的老师,、同学、朋友和家人并感谢北京交通大学的精心培养这次毕
4、业论文的完成得到了许多帮助与指导,在这些帮助和指导下我才得以顺利完成我的论文。首先感谢北京交通大学软件学院这两年半以来对我的精心培养,学院为我们,,营造了浓厚的学术研宄氛围,提供了先进的学习资源国际化的教学模式我在这样的学习环境中快速成长,使自己变的越来越优秀。祝福北京交通大学在今后的岁月里越来越辉煌。其次要由衷的感谢我的指导老师在研宂生生涯中,为我的学习研究提供的各,种机会与条件,在生活上给予的帮助给我在书写论文的过程中不厌其烦的修改与建议。,,再次要感谢跟我并肩作战学习的同学,我们相互讨论,交流思路研宄方法,,在遇到问题时,相互帮助,互
5、相解决在进行实验过程中。感谢同学们的帮助,他们都给予了很大的帮助。在老师与同学们的帮助下我快速找到解决方案使我论文顺利完成。同时还要感谢我的家人对我攻读硕士学位的无限支持。北京交通大学硕士学位论文摘要摘要公司实体关系抽取作为实体关系抽取的研宄分支,是信息抽取任务的重要组成部分,在开放性数据中抽取公司关系在了解和分析行业、做出管理决定选择商业伙伴等方面均具有重大意义,传统的实体关系抽取方法存在分类颗粒粗、不够细致等问题,而中文公司实体关系抽取中存在着语法复杂、组成灵活等问题,直接将传统的方法应用到此领域效果较差。因此,本文主要研究中文公司实体识别以
6、及中文公司实体关系抽取。一本文研究的内容包含两个部分:第,研究中文公司实体识别的方法。中文公司名称和简称的识别是自然语言处理一(NLP)中实体识别的个重要的挑战性的任务。传统的公司名称识别的方法存在未登录的公司名称难识别以及简称识别存一在实效性差和训练语料库构建困难等问题,基于这些问题本文提出了种基于规SF-UNION则和词典匹配以及统计的机器学习方法融合的算法(),以公司名称作为标准语料库,有机结合提高了中文公司名称与简称识别的性能,在开放测试中,该方法的公司名称与简称识别的召回率1、准确率、F值分别取得较好的效果。第二,研究中文公司实体关系抽取的方
7、法。中文公司实体关系抽取中存在着诸多一,问题,传统的方法应用性较差。为了解决以上问题本文提出了种基于依存句法分析(DependencyParsing,DP)的注意力机制(Atentionmechanism,ATT)Short-TermMemor与长短期记忆网络(Longy,LSTM)网络融合的算法(DPATTLSTM),对输入文本,__句子进行依存句法分析操作根据公司实体关系一的特点获取到由依存弧进行判断的谓语动词序列,输入
此文档下载收益归作者所有