基于web的大规模中文人物信息提取研究

基于web的大规模中文人物信息提取研究

ID:32973020

大小:4.37 MB

页数:52页

时间:2019-02-18

基于web的大规模中文人物信息提取研究_第1页
基于web的大规模中文人物信息提取研究_第2页
基于web的大规模中文人物信息提取研究_第3页
基于web的大规模中文人物信息提取研究_第4页
基于web的大规模中文人物信息提取研究_第5页
资源描述:

《基于web的大规模中文人物信息提取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、国内图书分类号:TP301.6国际图书分类号:681.14西南交通大学研究生学位论文密级:公开年级三Q二Q级姓名胡夏主.申请学位级别亟±专业让篡扭丕统结捡指导教师拯基数援二。一三年五月ClassifiedIndex:TP301.6U.D.C:681.14SouthwestJiaotongUniversityMasterDegreeThesislIIIIIIIIIIIIIUlIIIY2319072RESEARCHONLARGE.SCALECH烈ESEPEOPLEINFORMATIONEXTRACTIONBASEDONWEBGrade:20lOCandidate:W

2、antingHuAcademicDegreeAppliedfor:MasterSpeciality:ComputerArchitectureSupervisor:Prof.YanYangMay,2013西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于1.保密口,在年解密后适用本授权书;2.不保密影使用

3、本授权书。(请在以上方框内打“v”)学位论文作者签名:指导老师签名:日期:聊≥、上’f日期:钐移3.9、2/7西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:1、采集人物相关网页数据,主要包括编写程序下载好大夫在线、评师网、百度百科等网站数百万网页,CNKI网站三千多万条论文数据。2、对基于统计的网页正文提取算法做出一些改进,并结合DOM解析工具实现正文提取程序。用该程序提取了网页的正文。3、完成分词系统的组织机构名识别模块,主要工作包括:统计词语词频并排序、整理机构后缀词词典、建立机构名词典、统计机构名组成词词频、构建数学

4、模型并实现基于词频统计的机构名识别算法。用该分词系统完成对网页正文的分词。4、编程实现对半结构化和非结构化人物信息的提取,其中非结构化人物信息的提取采用基于规则的提取算法,手动建立了规则库,规则依赖于实验室分词系统对正文的分词标注。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名:伽辛j日期:埘;、j’吖摘要现代人越来越依

5、赖于从互联网上检索信息,人物信息是人们关注检索的一个重要领域。本文致力于抽取尽可能多的重要人物信息,构建一个人物信息的知识库,既可以作为人物搜索引擎的知识库,也可以作为语义搜索引擎的知识库的人物相关部分。网络上有海量的人物信息,但是这些信息格式多样、内容纷乱,大量的垃圾信息又充斥其中,如何从互联网中自动高效地抽取准确的信息相对复杂,有很多问题需要解决。本文研究了一个从网页数据采集、网页正文抽取、中文分词处理到人物信息结构化的完整过程,每个部分都对应论文的一章。首先是网页数据的采集。论文详述了人物信息网页来源的选取和网页的下载方法。网页下载越来越困难,网站对爬虫程

6、序的限制越来越严,甚至采取了各种反爬虫措施,比如对同一P访问频率的限制。作者自己编写程序下载网页数据,针对网站的不同情况采用了三种网页数据的下载方式:一般下载方式、代理下载方式和动态网页数据的下载方式。然后是对网页正文进行抽取。论文综述了网页正文抽取的相关研究,采用了基于统计和DOM的方法进行正文抽取。方法采用的统计信息是正文字长、超链接数和结束标点符号数。对每个容器标签,统计三个信息值后,利用它们的数量比值判断标签是否正文标签,进而抽取正文。接着是对网页正文进行分词处理。常见的分词系统在实体识别方面存在不足,不能很好适用于知识抽取、自然语言处理等。本文分词处理

7、使用的是西南交大思维与智慧研究所开发的分词系统,该系统在实体识别方面显著优于其它分词系统。机构名识别算法由本文作者实现,算法基于词频统计。实验中训练数据主要通过百度百科词条整理得到。训练时,作者利用百度百科词条名在词条文本中的频数统计,进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。最后是网页人物信息的结构化。网页上的人物信息一般以半结构化和非结构化呈现,人物信息抽取的最后部分就是抽取半结构化和非结构化的人物信息并保存为结构化的人物信息。对于半结构化人物信息,需要正文去匹配人物属性词典,然后结合简单规则,直接提取属性值就行了,方法

8、简单而有效。对于非结构化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。