欢迎来到天天文库
浏览记录
ID:35102012
大小:2.49 MB
页数:71页
时间:2019-03-17
《面向动态网页的定向信息提取模型的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文MASTERDEGREETATION论文题目面向动态网页的定向信息提取模型的设计与实现作者姓名盛洁学科专业计算机科学与技术指导教师宫继兵副教授2016年5月中图分类号:TP393学校代码:10216UDC:密级:公开工学硕士学位论文面向动态网页的定向信息提取模型的设计与实现硕士研究生:盛洁导师:宫继兵副教授申请学位:工学硕士学科专业:计算机科学与技术所在单位:信息科学与工程学院答辩日期:2016年5月授予学位单位:燕山大学ADissertationinComputerScienceandTechnologyDES
2、IGNANDIMPLEMENTATIONOFADIRECTIONALINFORMATIONEXTRACTIONMODELFORDYNAMICWEBPAGESbyShengJieSupervisor:AssociateProfessorGongJibingYanshanUniversityMay,2016燕山大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《面向动态网页的定向信息提取模型的设计与实现》,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。论文中除已注明部分外不包含他人已发
3、表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字:日期:年月日燕山大学硕士学位论文使用授权书《面向动态网页的定向信息提取模型的设计与实现》系本人在燕山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕山大学,可以采用影印、缩印或其它复制
4、手段保存论文,可以公布论文的全部或部分内容。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日摘要摘要随着Web2.0技术的出现以及快速发展,互联网中出现了越来越多的动态网页。Ajax技术实现了客户端与服务器之间的异步数据传输操作,不仅提高了用户的体验度,而且促进了动态网页的普及和互联网的发展。但是,这也使得依据HTML源码进行信息提取的传统网络爬虫无法提取到动态网页中的动态信息。因此,支持动态网页的信息提取的研究具有一定的实践意义。为此,本文提
5、出了一种面向动态网页的定向信息提取模型。首先,分析了与动态网页定向信息提取相关的理论与技术,同时将研究对象Web页面分为静态网页和动态网页两类,并对其进行了详细的对比分析。在此基础上,分析了动态网页广泛采用的Ajax技术对信息提取带来的挑战。最后,对超文本标记语言、DOM模型和正则表达式在信息提取中的作用进行了详细介绍。其次,分析了传统网络爬虫爬取动态网页的缺陷和不足,提出了一种面向动态网页的定向信息提取模型。其工作流程为首先通过HTTP请求获取网页,然后采用HtmlUnit来解析与执行动态脚本,并模拟提交页面表单;最后,利
6、用jsoup构建DOM树,从而提取页面信息和URL,并存储到数据库中。再次,结合所提出的面向动态网页的定向信息提取模型,给出了各个组成模块的具体实现方法:采用广度优先搜索策略爬取网站中的网页,使用布隆过滤器对URL链接进行去重处理,利用正则表达式和jsoup选择器提取网页信息和URL链接,并采用多线程爬虫技术来提高该模型的性能。最后,基于所提出的面向动态网页的信息提取模型,以燕山大学百度贴吧为爬取对象进行实验,并从模型的效率和性能两个方面进行实验设计。通过对爬取结果进行分析可知,所提出的模型在准确率、召回率和F值等评价指标下
7、均有较好的结果,验证了所提模型的高效率和高性能。关键词:定向信息提取模型;动态网页;网络爬虫;动态脚本;信息提取I燕山大学工学硕士学位论文AbstractWiththeemergenceandtherapiddevelopmentofWeb2.0,moreandmoredynamicwebpageswereappearedintheInternet.ThetechnologyofAjaxachievedanasynchronousdatatransferoperationbetweentheclientsandservers
8、,notonlyimprovedtheusers’experience,butalsopromotedthespreadofthedynamicwebpagesandthedevelopmentoftheInternet.OnthebasisoftheHTMLsourcecode,howe
此文档下载收益归作者所有