基于web页面结构的网页数据提取研究

基于web页面结构的网页数据提取研究

ID:35059160

大小:5.42 MB

页数:64页

时间:2019-03-17

基于web页面结构的网页数据提取研究_第1页
基于web页面结构的网页数据提取研究_第2页
基于web页面结构的网页数据提取研究_第3页
基于web页面结构的网页数据提取研究_第4页
基于web页面结构的网页数据提取研究_第5页
资源描述:

《基于web页面结构的网页数据提取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:保密期限:告备乂爹硕±学位论文\■]'■!基于Web页面结构的网页数据提取研究游挺民esearchonWebdataex化actionbasedonWebaepgstructure学号E13201012姓名胡瑞学位类别工学硕±.学科专业_计龍软件与S论捕、(工程领域)指导教师李煉教复完成时间2016年4月-答辩委员会.主席签名%\—气.....V-...

2、I-..、A.J独创性声巧本人声巧所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加标注和致谢的地方外,论文中不包含其他人巴经发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料一。与我同王作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年r月日学位论文版权使用授权书本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有权保留并向国家

3、有关部口或机构送交论文的复印件和磁盘。,允许论文被查阅和借阅本人投权安徽大学可L乂将学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书):学位论义作者签名;卞)抑导师签名《牛签字日期:知^?年S月3日签字日期;>〇<4年?月/日>*i摘要50一台计算机问世W来自上世纪年代世界上第,尤其是最近几十年随着互联网技术的飞速发展,英特网上来自全球领域的数据呈现指数型的增长。我们的曰

4、常生活也早已和这些海量的数据密切相关。互联网上的数据当然主要WWeb数据为主要载体。但是由于受到web固有半结构限制再加上网页随处可见的与主题信息毫不相干的广告等噪声信息,送样使得我们对于自己感兴趣的信息难W从海量的web数据中获取并利用。于是研究如何准确方便的从海量的信息中提取人们关也的目标信息数据并且结构化存储起来变得越来越重要。目前送方面的研巧己成为国内外学者研究热点之一,基本上多数的研巧都是DOM一些包装在HTML标签的解析基础上基于网页树结构或者视觉树,然后通过器的设计

5、等方法进行人工或者半人工也有自动化的提取技术,很多研巧也取得了DOM很好的效果。本文的研究也是建立在树的结构基础上,针对列表型页面的数。据提取做了详细的研究提取结构特征值,通过对特征值的处理引入了中介数学理论。在定位目标数据区域的算法研巧中,本文首先在基于对HTML解析成DOM文档""树的基础上进行了优化处理。并且提出了基于XPath的叶子节点路径改进算法该算法输出一DOM文档树叶子节点个路径。此路径结构是后续的工作的可行性至关重要的基础。在此基础上把中介数学理论系统(MMTD)引

6、入并且针对DOM树的""结构特征提出了基于MMTD目标数据区域定位算法(DLMMTD),送个对模糊_世界进行量化处理的数学方法被用在汁算机科学的多个领域,尤其是模糊集处理方面。但是本文首次把中介数学理论应用到了网页信息提取研巧上来,并且取得了不错的效果。紧接着对数据记录进行提取算法研究。提出了数据记录长度的概念。并且相""基于路径结构的数据记录长度求取算法(CDLPathStructure)。应提出了_在得到每一个数据记录的数据长度的基础上都数据记录的数据项做依次提取工作。

7、OMMMTD目关键字:D文档树标数据区域列表型页面I基于Web页面结构的网页数据提取研究ABSTRACTSnce'le1stheworsrstcomutercomeoutesecialnrecentecadesitit950ldfip,plyidwiththerapiddevelopmentofIntern约1;echnology,ontheIntern巧fromaroundthewornthefieldotasinexon

8、e打tarowth.Ourdaillivesavelonbeenldifdahowgpilgyhgcloselylinkedwiththesevastamountsofdata.Humanneedsforinformationreachedanunprecedentedheight.Datao打化eInternetas化emain

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。