基于视觉分块与语义dom的deep web信息抽取研究

基于视觉分块与语义dom的deep web信息抽取研究

ID:35070182

大小:3.93 MB

页数:55页

时间:2019-03-17

基于视觉分块与语义dom的deep web信息抽取研究_第1页
基于视觉分块与语义dom的deep web信息抽取研究_第2页
基于视觉分块与语义dom的deep web信息抽取研究_第3页
基于视觉分块与语义dom的deep web信息抽取研究_第4页
基于视觉分块与语义dom的deep web信息抽取研究_第5页
资源描述:

《基于视觉分块与语义dom的deep web信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.:10270!TP31113学号;13扣U1UM学校代码分类号.-.■.‘1."...'.主善畔絶乂多硕±学位论文基于视觉分块与语义D0M的DeepWeb信息抽取研究学院:信息与机电工程学院专业.应用技术;计算相I研究方向;数据库.‘.硏究生姓名:述_遮指导教师:V陈军华_完成日期:2016年4月.,々'■:;/,I■‘■^V..:.?论文独创性声明本论文是我个人在导师指导下进

2、巧的研巧工作及取得的研究成果。论文中除了恃别加标注和致谢的地方外,不包含其他人或机构己经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均己在论文中做了明确的声明并表示了谢意。作者签名;,私^日期;令论文使用授权声明本人完全了解上海师范大学有关保留、使用学位论文的规定,目P;学校有权,保留送交论文的复印件允许论文被查阅和借阅;学校可公布论文的全部或部.‘.分内容,可采用影印、缩印或其它手段保存论文。保密的论文在解密后遵守此规定。%-王期.作者签名知导师签名贫

3、卑;毛上海师范大学硕士学位论文摘要摘要隐藏在普通搜索引擎的背后,需要用户提交表单查询并从后台数据库中返回结果页面才能获取到的信息,称为DeepWeb。当前对DeepWeb数据抽取的研究是一个比较热门的话题。随着页面结构变得越来越复杂,以及动态网页技术的引入,使得DeepWeb页面存在异构性和半结构化的特点。如何快速有效地从这些半结构化的结果页面中抽取用户感兴趣的数据以提供特定的服务成为一个难点。目前研究的主要问题包括:(1)如何有效快速地识别噪声信息,使得在对原始页面分析之前尽可能对页面进行清洗;(2)如何根据DOM树结构和

4、页面视觉信息快速定位页面的主数据区域;(3)如何不受页面结构差异的影响尽可能自动地抽取页面数据。针对上述问题,传统的单一的基于DOM树的页面分析方法已经无法满足用户的需求。因为单一的基于DOM树的页面分析方法主要依赖DOM树的结构特征,需要解析页面所有的标签将其转化为DOM树,忽略了页面的一些有效的视觉特征,并且一旦页面的结构发生变化,需要重新对页面的结构进行分析再抽取。目前,微软亚洲研究院提出了一种新的页面数据抽取方法—VIPS算法。VIPS算法打破了以往传统的基于DOM树抽取方法,从人的视觉角度出发,把页面分割为一个个有

5、效的视觉块,并对这些视觉块进行语义重组,形成一棵视觉块树。该算法在DOM树结构和页面的语义之间建立了桥梁。本文通过分析DeepWeb结果页面的特点,结合人的视觉特征,在VIPS算法的基础上提出了一种基于基准视觉块的DeepWeb信息抽取方法。该方法首先对页面的标签进行了分析,在解析器将Web文档解析成语法树之前,将Web页面一些与主题无关的信息(例如导航栏、广告)等去除,并对优化后的DOM树利用VIPS算法对其进行语义分块,分块后根据坐标位置首先寻找到基准视觉块,以该基准视觉块作为中心位置逆序和顺序遍历DOM树并采用线性特征

6、向量判别法寻找所有相似的视觉块对其进行抽取。从实验效果来看,本文提出的基于基准视觉块的页面数据提取方法具有一定的可行性并在提取数据的准确率方面与传统的方法相比有了一定的提高。关键词:数据抽取;DOM树;VIPS算法;视觉特征;基准视觉块IShanghaiNormalUniversityMasterofPhilosophyAbstractAbstractTheinformationwhichcanonlybegotfromtheresultpagescalledDeepWeb.Theseresultpagesneedusers

7、tosubmittheformqueryandreturntheresultsfromthedatabasebehind.Currently,theresearchonDeepWebisapopulartopic.Butasthepagestructurebecomesmorecomplex,andtheintroductionofdynamicWebpagetechnology,whichmakestheDeepWebpagesbecomesheterogeneityandsemi-structured.Sohowtoqu

8、icklyandefficientlyextractthedatawhichusersinterestedfromthesesemi-structuredresultspagesinordertoprovideaspecificservicebecomesadifficulty.Curre

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。