欢迎来到天天文库
浏览记录
ID:33145308
大小:6.99 MB
页数:65页
时间:2019-02-21
《基于scrapy框架的新闻实时抓取及处理系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南开大学硕士学位论文基于Scrapy框架的新闻实时抓取及处理系统的设计与实现姓名:林伟坚申请学位级别:硕士专业:计算机软件与理论指导教师:袁晓洁2012-05摘要随着Intemet的飞速发展,互联网的信息大爆炸给人们带来信息过载的问题,新闻资讯作为人们接触最多的一种媒体信息,发布方式已经从传统媒体逐渐的转移到互联网上。新闻资讯作为互联网信息的重要组成部分也在急剧的增加。在此背景下,论文确定了通过分布式的新闻实时抓取来快速的聚合互联网上各个站点的新闻内容并对其加以处理的研究方向,以使得人们更加高效、全面的获
2、取新闻资讯。论文深入分析并总结了互联网新闻资讯、新闻站点以及新闻爬虫的特点,将新闻站点的页面精确的划分为导航页面和新闻页面,通过区分这两种页面不同的监控和爬取措施,详细设计了适用于新闻爬虫的核心算法,包括爬取策略和更新策略,这两个核心算法能够确保新闻能够被全面和高效的抓取;通过使用Redis和MongoDB这两个开源的Nosql数据库软件,在Scrapy爬虫框架的基础上进行深度定制,实现了一套分布式的新闻实时爬取系统。这套新闻实时爬取系统在多个模块里均使用了Xpath和正则表达式的方法来抽取和识别相关的数
3、据。论文还设计并实现了一条可配置模块的新闻数据加工处理的流水线,用来对爬取后的新闻进行加工处理。流水线的功能模块包括新闻数据抽取、新闻属性的规整化、分页新闻的合并和新闻内容的清洗等。论文根据中文新闻的特点,使用Shingles的特征抽取方法来抽取新闻特征,在Google的网页去重算法SimHash的基础上实现了新闻去重算法。论文实现的分布式的新闻实时爬取和数据清理系统已经应用于实际的生产过程。通过对120多个新闻站点和1300多个初始化的导航页面的爬取和监控,系统每天能够抓取40多万的页面,其中新闻页面的
4、占比很高,这些运行数据表明该系统有着较高的抓取效率。后续的数据处理流水线也同时能够胜任每天的新闻的加工和处理。关键词新闻爬虫,Scrapy,数据抽取,新闻去重AbstractWiththerapiddevelopmentofIntemet,theinformationexplosionoftheIntemetbringstheproblemofinformationoverload.ThereleasemethodofnewshasbeenshiftfromtraditionalmediatotheInt
5、emet.AsanimportantpartoftheInternetinformation,newsalsoincreasesdramatically.Inordertomakeitmoreeasytogetthenews,thepaperdesignsareal-timedistributednewscrawlertoaggregatethenewsintheIntemetandapipelinetoprocessthenewsdata.Thepapersanalyzesandsummarizesth
6、echaracteristicsofIntemetnews,newssitesandnewscrawler,anddesignscorealgorithmsofthenewscrawlerbasedonthesecharacteristics,whicharecrawlingstrategyandupdatingstrategy.Basedontwoopensourcedatabases,RedisandMongoDB,andScrapyCrawlerFramework,thepaperdesignsar
7、eal—timedistributednewscrawler,whichusesXPathandregularexpressionstoextractandidentifytherelevantdata.Thepaperalsoimplementsanewsdataprocessingpipeline,includingnewsdataextraction,propertiesnormalization,newspagescombinerandnewscontentcleaning.Accordingto
8、thecharacteristicsofthenews,thepaperusesShinglesasthefeatureextractionmethodandGoogle’SSimHashasthenear-duplicatesdetectingalgorithm.Thenewscrawlerandprocessingpipelinehavebeensetupinactualproduction.Bycrawlingandmo
此文档下载收益归作者所有