欢迎来到天天文库
浏览记录
ID:35095241
大小:2.98 MB
页数:86页
时间:2019-03-17
《网页中实体表格信息抽取方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDSSERTATION论文题目:网页中实体表格信息抽取方法的研究论文作者:刘岩学科:计算机科学与技术指导教师:张兴兰论文提交日期:2016年5月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307100密级:公开北京工业大学工学硕士学位论文题目:网页中实体表格信息抽取方法的研究英文题目:METHODOFENTITYTABLEINFORMATIONEXTRACTIONINWEBPAGE论文作者:刘岩学科专业:计算机科学与技术研究方向:信
2、息安全申请学位:工学硕士指导教师:张兴兰所在单位:计算机学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:刘岩日期:2016年6月28日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交
3、论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:刘岩日期:2016年6月28日导师签名:张兴兰日期:2016年6月28日摘要摘要随着互联网的迅猛发展,网页的信息量呈指数型增长,逐页浏览信息已经不能满足人们的要求,信息抽取技术应运而生。信息抽取技术使人们不用进一步人工筛选符合自己需求的内容而是直接帮助人们从海量网络数据中获取有价值的信息。网页信息提取技术主要围绕两个方向展开,包装器和结构识别。前者的缺点在于对网页的结构依赖性强,可重用性差,通用性差。本文则是
4、结构识别的一种,该方法对网页中半结构化信息能良好的定位和识别,并且对大多数网页具有通用性,生成的结果能直接应用于本体生成,实用价值高。本文所研究的抽取系统中实现的爬虫是一个增量型的、深度优先爬取的定向爬虫。它通过配置文件来生成爬取任务,一个配置文件对应一个爬取任务。配置文件有特定的格式和配置字段,由人工编辑生成,只需配置大约十多个字段,就可以完成对于特定网站、特定领域、特定主题的内容的定向爬取配置。对网页进行清洗之后,本文针对有
5、征本文总结了六条规则,依次通过对六条规则生成字符串,然后采用有穷自动机来识别字符串,最后根据停留在不同的状态判断是否是真表格。为提高定位的准确度,本文提出了URL归类实体定位法,通过对URL的类别分类,能将不含有表格的网页去除。这两种方法的结合使得表格定位具有较高的准确度。同时,本文针对有特殊符号的无
6、提出了将表格数字化,通过计算单元格之间长度差异判断出表格的展开方式,将两者判断的结果赋予不同的权值,最终判别出表格为横向展开还是纵向展开。并且本文根据类型差异和结构差异判断出表头所跨越的行数或列数。关键词:本体生成;信息提取;web表格;实体定位;结构识别-I-AbstractAbstractWiththerapiddevelopmentofInternet,thewebinformationisgrowingexponentially.Browsingwebinformationpagebypagecannotsatisfytherequirementof
7、peoplesothattheinformationextractiontechnologyarebornattherightmoment.Informationextractiontechnologymakepeoplechoosetheusefulcontentwithoutfurtherartificialscreeningandhelppeopleobtainvaluableinformationfromhugeamountsofnetworkdatadirectly.Thewebinformationextractiontechnologymain
8、lyrevolvesaroundtwodirecti
此文档下载收益归作者所有