基于规则的蒙古文人物属性抽取研究

基于规则的蒙古文人物属性抽取研究

ID:37062456

大小:1.42 MB

页数:58页

时间:2019-05-17

基于规则的蒙古文人物属性抽取研究_第1页
基于规则的蒙古文人物属性抽取研究_第2页
基于规则的蒙古文人物属性抽取研究_第3页
基于规则的蒙古文人物属性抽取研究_第4页
基于规则的蒙古文人物属性抽取研究_第5页
资源描述:

《基于规则的蒙古文人物属性抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10126学号:31609096分类号:TP391编号:论文题目基于规则的蒙古文人物属性抽取研究内蒙古大学学院:计算机学院专业:软件工程研究方向:人工智能姓名:胡梦君指导教师:诺明花讲师2018年4月25日内蒙古大学硕士学位论文基于规则的蒙古文人物属性抽取研究摘要在信息爆炸的互联网时代,网络上充斥着海量繁杂的信息和数据,且多以半结构化文本或自由文本形式呈现。用户对搜索所关注信息的效率性和获得结果的准确性有着越来越高的要求,由此,信息抽取技术(IE)以帮助用户快速获取目标内容为目的而得到迅速的发展。目前信息抽取技术虽在

2、中英文的研究上已获得不少实用成果,但在少数民族语言如蒙古文中,信息抽取的研究和应用基本仍处于空白阶段。本研究中涉及到的信息抽取特指为实体关系抽取,旨在从大规模的文本数据中提取出目标信息如人物属性值,然后将抽取结果以结构化的形式保存到本地,并为用户提供后续的查询功能,同时此研究也是构建蒙古文人物知识库或人物搜索引擎等网络应用的一项基础工作。本文以基于规则的方式,以蒙古语新闻网站爬取到的蒙古文无结构文本为研究对象,针对关注度较高的人物领域,研究了对人物属性的抽取。本文的重点研究工作如下:(1)设计爬虫工具,从多个蒙古文新闻网站,分

3、别根据其中新闻正文所在网页的结构和网址特征爬取文本,对其进行多项预处理工作,再采用BLSTM与CRF相结合的模型进行命名实体识别,得到最终标注语料库,作为后续分析处理的基础资源。(2)使用人工制定的触发词库与规则库对语料文本中蕴含的人物属性值以“人物-属性-属性值”的三元组形式进行抽取和保存,得到了高准确率的抽取结果,证明本文提出的基于规则的抽取方法可行有效。(3)设计实现了蒙古文人物属性抽取系统,该系统提供人物属性抽取和人物相关属性信息查询两个功能模块。I基于规则的蒙古文人物属性抽取研究关键字:蒙古文信息抽取;人物属性;网络

4、爬虫;命名实体识别;触发词;基于规则II内蒙古大学硕士学位论文RESEARCHONRULE-BASEDEXTRACTIONOFMONGOLIANCHARACTERATTRIBUTESABSTRACTIntheInterneteraofinformationexplosion,theInternetisfullofmassiveinformationanddata,andmostofthemareintheformofsemi-structuredtextorfreetext.Usershavehigherandhigherre

5、quirementsontheefficiencyofinformationretrievalandtheaccuracyoftheobtainedresults.Therefore,InformationExtraction(IE)technologyhasbeenrapidlydevelopedtohelpusersobtainthetargetcontentquickly.AlthoughInformationExtractiontechnologyhasgotmanypracticalachievementsinthe

6、studyofChineseandEnglish,theresearchonInformationExtractioninMongolian,aminoritylanguage,isstillintheprimarystage.Theinformationextractioninvolvedinthisthesisisspecificallyreferredtoasentityrelationextraction.Itaimstoextracttargetinformationsuchascharacterattributev

7、aluesfromlarge-scaletextdata,andthensavetheextractionresultsinastructuredformandprovideuserswithsubsequentqueries,andthisresearchisalsoabasicworkforbuildingnetworkapplicationssuchasknowledgebasesorMongoliancharactersearchengines.ThisthesisusesMongolianunstructuredte

8、xtswhicharecrawledfromMongoliannewswebsitestoresearchtheextractionofcharacterattributesforhighlyconcernedcharacterbyarule-basedapproach.Th

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。