欢迎来到天天文库
浏览记录
ID:57746949
大小:3.16 MB
页数:92页
时间:2020-03-27
《支持Ajax技术的Deep Web网络爬虫模型研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、分类号UDC支持Ajax指导教师学位授予单位申请学位级别工I—I,,论文完成日期20’——、、一。^_,f'^fResearchonanAjaxSupportedDeepWebCrawlerModelAthesisSubmittedtoDalianMaritimeUniversityInpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineeringbyGuanCuihua(ManagementScienceandEngineering)ThesisSupervisor:ProfessorCaoYanMay2011眦4川3
2、Ⅲ4⋯6㈣9俐8Ⅲ⋯j■l舢Y^I●大连海事大学学位论文原创性声明和使用授权说明●.原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成硕士学位论文:童挂甾墼撞苤的旦垒鲤迎堂圆终爬虫送型殛究:j除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:堡!堡堑学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构
3、送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全文数据库》(中国学术期刊(光盘版)电子杂志社)、《中国学位论文全文数据库》(中国科学技术信息研究所)等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:保密口在——年解密后适用本授权书。不保密留(请在以上方框内打“√")论文作者虢够轨导师虢弗彳日期:矽f『年6月艿日中文摘要摘要快速增长的网络信息资源已经成为一个巨大的信息
4、宝藏。实际上通用搜索引擎仅能检索到整个网络资源的-d,部分信息(称之为SurfaceWeb),而大部分更有价值的信息资源却不能够被通用搜索引擎检索,这些不能被检索到的信息就称为DeepWeb。对DeepWeb中信息获取的研究已经越来越受到人们的关注。在DeepWeb中,有相当一部分内容因为以动态网页的形式存在而不能被有效抓取。究其原因是,目前很多网站通过动态脚本的方式与用户进行交互,特别是以Ajax为代表的技术在网站开发中得到了广泛应用。Ajax技术改变了传统的基于静态页面的网站架构,在提高用户体验度的同时,由于其特性如JavaScript事件执行、状态识别与切换等,导致使用Ajax技术的网站
5、及其后台服务器资源无法被通用网络爬虫抓取,成为了不同于SurfaceWeb的DeepWeb资源。针对如何获取这类使用Ajax技术的网站信息的问题研究将变得越来越重要,因此,实现此类信息的获取成为了本文工作的出发点。本文的主要研究内容如下:(1)研究了通用网络爬虫的体系结构、工作原理,重点分析其抓取Ajax网页所面临的JavaScript执行、状态识别与切换等问题。基于以上研究,本文提出了一种基于状态仓库的DeepWeb网络爬虫(即AjaxFetcher)的体系结构及其基本算法。(2)该爬虫通过加入嵌入式浏览器的功能,可以模拟执行页面中的JavaScript事件,接受服务器端的异步响应,通过分析
6、页面DOM结构的变化识别新生成的状态,逐步生成Ajax网站的状态仓库,该状态仓库呈现出了Ajax网站的结构及其各个页面状态信息。(3)由于在Ajax分页抓取中对同一个函数的每次调用都将导致同样的服务器端响应,本文将包含Ajax请求的JavaScript函数标记为热点,通过缓存数据响应策略的方法改进上述基本算法,从而减少与服务器端通信所带来的性能损耗。最后本论文通过设计对比实验来验证提出的新型网络爬虫的有效性,实验结果表明利用该爬虫能够从Ajax页面更多的获取后台DeepWeb资源。关键词:Ajax;DeepWeb;网络爬虫;状态仓库;嵌入式浏览器●◆英文摘要ABSTRACTTherapid—g
7、rowingresourceofintemetinformationhasalreadybeenahugetreasure.Infact,asmallportionofintemetinformationcalledSurfaceWebcanbeobtainedviaSearchEngine,whilealargenumberofmorevaluableinformationcalledDeepW
此文档下载收益归作者所有