欢迎来到天天文库
浏览记录
ID:32305209
大小:2.79 MB
页数:80页
时间:2019-02-03
《支持javascript解析的网页采集系统设计与实现论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学位论文支持JavaScript解析的网页采集系统设计与实现作者姓名:指导教师:呻请学位级别:,学科专业名称:一‘论文提交日期:、学位授予日期:“评阅人:白红霞常桂然教授东北大学计算中心硕士学科类别:工学计算机应用技术2008年6月论文答辩日期:2008年7月黼员会主席:陶振凯刘涌、黄卫祖东北大学2008年6月/∥砖▲■●■IF~I、:‘.,;.’-:<上,Ik—_J,.-●j●■■■■-1.
2、
3、,l0.1’f.一.III!ll!l!/llllllf$II/llllflllrIIIrflllJ』丫1844238AThesisfortheDegreeofMasterinComp
4、uterApplicationTechnologyDesignandRealizationofaWebPageGatheringSystemwithJavaScriptParsingByBaiHongxiaSupervisor:ProfessorChangGuiranNortheasternUniversityJune2008妒●摹^譬',-1▲j独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已
5、在论文中作了明确的说明并表示诚挚的谢意。学位论文作者签名:白扫雷签g-日期:t008.彭·/o学位论文版权使用授权书j本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年口一年半口两年衫j学位论文作者签名:自主2髻导师签名:签字日期:7,009.6,/o签字日期:窄彬易卯一g.‘·厂口●-,▲-●1●k东北大学硕士学位论文摘要支持JavaScrip
6、t解析的网页采集系统设计与实现摘要随着搜索引擎的广泛应用,网页采集技术得到了长足发展。网页采集是搜索引擎工作流程的第一站,采集的页面质量将直接影响到搜索引擎提供查询服务的优劣。最理想的情形是采集与用户视觉信息一致(CoherentwithUsers’VisionInformation,CUVI)的页面,这一概念一直是搜索引擎领域的盲点。针对这一盲点,本文以抓取CUVI页面为宗旨设计并实现了一个网页采集系统。抓取CUVI页面首先需要进行网页重定向的处理操作,这是页面JavaScript程序的主要功能之一。本文采集系统通过将JavaScript解析引入采集系统设计中,在很大程度上
7、解决采集CUⅥ页面的问题。本文主要内容分JavaScript解析和采集系统设计与实现两部分展开。JavaScript(JS)解析部分,首先分析处理JavaScript的必要性,通过对典型数据进行调研分析,得到了JS程序在HTML文档中的功能分布。然后,根据采集系统对JavaScript解析的需求设计并实现了简易JS解析器——JSParser。最后,通过实验验证JSParser无论在性能上还是在功能上都能满足本文采集系统的需求。本文的采集系统由采集器和控制器两个模块组成。采集器在设计上,创新性地引入页面分析功能,并结合使用JSParser,达到了采集CUVI页面的初衷;在实现上
8、,采用EPOLL技术解决了采集器对高并发度的要求。控制器维护一个站点IPFIFO(FistInFistOut)队列,较好地解决了采集系统对IP和站点的抓取压力控制,使得采集器和互联网能够良好的协同工作。通过对系统进行多方面测试,得到引入JSParser对系统性能的影响不明显,并且本系统在IP富足的情况下,运行良好。关键词:网页采集系统;用户视觉信息;JavaScript解析;页面分析;IPFIFO队列一II—●■东北大学硕士学位论文AbstractDesignandRealizationofaWebPageGatheringSystemwithJavaScriptParsin
9、gAbstractWiththewidelyapplicationofsearchengines,webpagegatheringtechnologyhasbeendevelopingrapidly.Webpagegatheringisthefirststepofthesearchengineworkingflow.。kThequalityofWebpagesgathereddirectlyaffectstheQoS(QualityofService)ofasearch●engine.Inidealci
此文档下载收益归作者所有