支持javascript解析网页采集系统设计和实现

支持javascript解析网页采集系统设计和实现

ID:32344646

大小:2.75 MB

页数:77页

时间:2019-02-03

支持javascript解析网页采集系统设计和实现_第1页
支持javascript解析网页采集系统设计和实现_第2页
支持javascript解析网页采集系统设计和实现_第3页
支持javascript解析网页采集系统设计和实现_第4页
支持javascript解析网页采集系统设计和实现_第5页
资源描述:

《支持javascript解析网页采集系统设计和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、~I、:‘.,;.’-:<上,Ik—_J,.-●j●■■■■-1.

2、

3、,l0.1’f.一.III!ll!l!/llllllf$II/llllflllrIIIrflllJ』丫1844238AThesisfortheDegreeofMasterinComputerApplicationTechnologyDesignandRealizationofaWebPageGatheringSystemwithJavaScriptParsingByBaiHongxiaSupervisor:ProfessorChangGuiranNortheasternUniversityJune2008

4、妒●摹^譬',-1▲j独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示诚挚的谢意。学位论文作者签名:白扫雷签g-日期:t008.彭·/o学位论文版权使用授权书j本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数

5、据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年口一年半口两年衫j学位论文作者签名:自主2髻导师签名:签字日期:7,009.6,/o签字日期:窄彬易卯一g.‘·厂口●-,▲-●1●k东北大学硕士学位论文摘要支持JavaScript解析的网页采集系统设计与实现摘要随着搜索引擎的广泛应用,网页采集技术得到了长足发展。网页采集是搜索引擎工作流程的第一站,采集的页面质量将直接影响到搜索引擎提供查询服务的优劣。最理想的情形是采集与用户视觉信息一致(CoherentwithUsers’VisionInformation,CUVI)的页面,这一概念一直是搜索引

6、擎领域的盲点。针对这一盲点,本文以抓取CUVI页面为宗旨设计并实现了一个网页采集系统。抓取CUVI页面首先需要进行网页重定向的处理操作,这是页面JavaScript程序的主要功能之一。本文采集系统通过将JavaScript解析引入采集系统设计中,在很大程度上解决采集CUⅥ页面的问题。本文主要内容分JavaScript解析和采集系统设计与实现两部分展开。JavaScript(JS)解析部分,首先分析处理JavaScript的必要性,通过对典型数据进行调研分析,得到了JS程序在HTML文档中的功能分布。然后,根据采集系统对JavaScript解析的需求设计并实现了简易JS解析器

7、——JSParser。最后,通过实验验证JSParser无论在性能上还是在功能上都能满足本文采集系统的需求。本文的采集系统由采集器和控制器两个模块组成。采集器在设计上,创新性地引入页面分析功能,并结合使用JSParser,达到了采集CUVI页面的初衷;在实现上,采用EPOLL技术解决了采集器对高并发度的要求。控制器维护一个站点IPFIFO(FistInFistOut)队列,较好地解决了采集系统对IP和站点的抓取压力控制,使得采集器和互联网能够良好的协同工作。通过对系统进行多方面测试,得到引入JSParser对系统性能的影响不明显,并且本系统在IP富足的情况下,运行良好。关键

8、词:网页采集系统;用户视觉信息;JavaScript解析;页面分析;IPFIFO队列一II—●■东北大学硕士学位论文AbstractDesignandRealizationofaWebPageGatheringSystemwithJavaScriptParsingAbstractWiththewidelyapplicationofsearchengines,webpagegatheringtechnologyhasbeendevelopingrapidly.Webpagegatheringisthefirststepofthesearchengineworkingflow.

9、。kThequalityofWebpagesgathereddirectlyaffectstheQoS(QualityofService)ofasearch●engine.Inidealcircumstances,thegatheredpagesshouldbethepagescoherentwiththeusers’visioninformation(cuvI).However,thisideahasbeenpaidnoattentionallthewhile.Tosolvethisblindspot,awebp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。