欢迎来到天天文库
浏览记录
ID:35074288
大小:6.10 MB
页数:56页
时间:2019-03-17
《定制化web信息抓取与推送技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:TP分类号:393密级:公开'--■**04.7;-:0-,UDC;'_^未j‘//户'学号:''*-■——???*\?**?.—S??-*?*.全—\*鏡谭以肩雪I帛雌-'-''辑束馬大?寒婚工程硕±学位论文定制化Web信息抓取与推送技术的研究(学位论文形式:应用研究)研巧生姓名:吴雪松导师姓名:沈卓妹副教授张德胜高工堂仿巧予单位东南大学由搶壁仿龙別工程硕±期20166___目下巧
2、领域名称计?机技术论文答辩日__年巧?期2016__日_研巧方巧计m机应用技术学位授予日_逢_呂答诞蚕员会丰席沈军教授评阅人巧军觀院盲2016年6月5日RESEARCHONCUSTOMIZEDWEBINFORMATIONCRAWLINGANDPUSHINGTECHNIQUESAThesisSubmitedtoSoutheastUniversityFor化ePro佐ssionalDegreeofMasterofEnginee
3、ringBYWUXue-songSupervisedby-weAssociateProfessorSHENZhuoiSchoolofComuterScience&EnineeringpgSoutheastUniversityMa31th2016y,东南大学学位论文独创性声明匯本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研巧成果。尽我所知,除了文中持别加W标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果
4、,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示了谢患。W七’k研究生签名;矣當私日期:b东南大学学位论文使用授巧汚明东南大学、中国科学技术信息研巧所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可W采用影印、缩印或其他复制手段保存论文。本人电子文挡的内容和纸质论文的内容相一,致,允许论文被可W公布(包括电子信息形式刊登)。除在保密期内的保密论文外査阅和借阅论文的全部内
5、容或中、英文摘要等部分内容。论文的公布(包括电子信息形式刊登)授权东南大学研巧生院办理。yi.bk:研巧生签名:2^^导师签名:期^摘要,随着互联网的高速发展人们进入信息爆炸时代,高效获取Web信息成为人们的迫切需求。当前主流的信息获取方式存在灵活性差、及时性差、缺少整合等不足,为此,一eb论文提出种定制化的W信息抓取与推送方案,使用该方案,用户可指定感兴趣的。网页及其中的关注点,服务器自动将该关注点的更新推送给用户为定位有效的Web信息一,论文研巧了网页内容的定
6、位方式,提出种可交互的操作方式,辅助用户将网页关注点转换为规则。为实现高效的动态网页抓取,论文研巧了在服务器端进行网页道染的关键技术一,提出了种高效的服务器端网页渣染方案。论文的主要贡献有:一1.提出种可交互的操作方式,辅助用户将网页关注点转换为计算机可处理的规则。为了在服务器端自动定位用户的关注点,论文基于XPa也表达式设计网页定位规则,并实现了自动化的XPath生成功能。2一.基于云计算环境提出种可缩放的动态网页這染方案,适用于大规模高并发的网页渣染和信息提取。为实现高效
7、的动态网页抓取,论文使用任务队列和多机WebKit渣染的并发度多进程并发大幅提高了,使用缓存机制大幅提高了网页渣队列提出了一ebKit服务器数量的策略染的效率,基于任务种动态调整W,提高了硬件资源的利用率。3.基于上^^案设计并实现了定制化\^613信息抓取与推送的原型系统,对原型系统进行功能和性能测试。实验结果表明,论文提出的定制化Web信息抓取与推送技术方案可行,具有较强的实用性。W,,,关键词:XPa出Kit,eb动态网页抓取任务队列缓存1Abstract
8、AbstractWiththerapiddevelopmentoftheInternet^webinformationgrowsuncontrolled,acce巧*tt:owebmformatio打eficiencyhasbecomeurge打ieuirements.However化emainstreamq,sofilwayacce巧化informaton
此文档下载收益归作者所有