基于web平台的可定制垂直爬虫的研究与实现

基于web平台的可定制垂直爬虫的研究与实现

ID:33399103

大小:8.64 MB

页数:73页

时间:2019-02-25

基于web平台的可定制垂直爬虫的研究与实现_第1页
基于web平台的可定制垂直爬虫的研究与实现_第2页
基于web平台的可定制垂直爬虫的研究与实现_第3页
基于web平台的可定制垂直爬虫的研究与实现_第4页
基于web平台的可定制垂直爬虫的研究与实现_第5页
资源描述:

《基于web平台的可定制垂直爬虫的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据分类号UDCTP391004.9编号10299G091712@江薄大擎工程硕士学位论文基于Web平台的可定制垂直爬虫的研究与实现ResearchandImplementationofCustomizedVerticalCrawlerFrameworkBasedon"台bPlatform申请学位级别工猩亟±学科(专业)让篡扭撞查论文提交日期2Q!垒生!Q旦论文答辩日期2Q!垒生12旦学位授予单位和日期江菱太堂2Q!垒生!至旦答辩委员会主席评阅人万方数据独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取

2、得的成果。除文中己注明引用的内容以外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:凌必蠕q/otu..,年}≯窍fs日万方数据学位论文版权使用授权书、江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊(光盘版)电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文

3、的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国,-学位论文全文数据库》并向社会提供查询,授权中国学术期刊(光盘版)电子杂●志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布(包括刊登)授权江苏大学研究生处办理。/本学位论文属于不保密留。学位论文作者签名:删砂,乒年,≯月f8日指导教师签名.砂㈧警)矽旯矿日万方数据江苏大学工程硕士学位论文摘要随着互联网技术的快速发展,特别是互联网应用的普及,产生了海量的、丰富的Web信息资源。为了快速获取到有用信息,、基于通用爬虫的搜索引擎成

4、为人们用于信息检索的必备工具。然而,随着人们对信息的多样化需求,以及数据分析系统对数据的内容和格式的要求,传统搜索引擎获取的信息全而不精的特点,已经无法满足人们的需要。因此,很多基于不同领域的垂直爬虫应运而生,以数据主题相关性和结构化程度高的特点,解决了用户对特定领域垂直数据的抽取问题,在电子商务、房产领域、教育新闻以及专利检索等领域有所应用。但是,目前的垂直爬虫存在的不足是当出现一个新的领域主题,就需要构建相应的垂直爬虫,来抽取领域信息,信息聚合能力较低,无法满足特殊需要,通用性不强。其次,抽取到的内容存储结构混乱,无法对获取到的信息进行

5、有效的管理。另外,对变动的业务需求也无法应对,扩展性低,适用范围很小,造成资源浪费。这些问题导致了用户或业务系统不能得到充分的、可用于分析的数据资源,如实验研究、舆情分析、商品信息比对等。因此,通过实现垂直爬虫的定制化功能来解决特定领域的特殊网页分析,快速地得到丰富的互联网信息资源,提高互联网信息聚合能力,使得垂直爬虫系统在数据抽取的通用性、灵活性方面的改进是本文研究的关键点。因此,本文首先分析了已有的垂直爬虫的架构特点,提出了一个新的架构体系,具备分布式、可扩展、可定制的特点;并基于该框架设计实现了一个基于Web平台的可定制垂直爬虫系统C

6、VCrawler(CustomizedVeritcalCrawler)。本文的主要工作内容如下:1.对现有的基于通用爬虫的搜索引擎存在的不足进行分析,进而阐述了垂直爬虫的发展与研究现状,·针对用户多样性需要,引出可定制垂直爬虫的概念以及相关知识和技术。’2.考虑到已有爬虫的扩展性和可定制化程度不高的问题,本文将爬虫的核心功能独立出来,提出了一个新的架构体系,主要包括页面获取、页面解析、.URL管理和内容存储这四大部分,并对这四个部分的功能需求进行了分析。其中,T万方数据基于Web平台的可定制垂直爬虫的研究与实现页面获取的改进,可以实现页面渲

7、染方式的定制,应对静态或动态页面;页面解析的改进,只需要提供特定页面的抽取规则(可自定义的)即可实现跨主题领域的页面数据抽取;URL管理的改进,可以根据需要来定制去重方式和爬取策略;内容存储的改进,可以过滤和转化抽取到原始数据,方便保存在文件或关系型数据库中,为了便于分析,也可以是Key—Value存储系统。.3.基于爬虫的需求分析,采用Java语言和第三方工具包,详细实现各个模块的主要功能。在页面获取模块,主要基于h却协议的获I仅html页面,对于动态页面,采用内置浏览器渲染技术。在页面解析模块中,主要采用行块分布函数、正~则表达式幂IX

8、path等多种方式来抽取正文内容,非常高效灵活,可以应对各种复杂的html结构。在URL管理中,采用基于广度优先原理的队列来保存和提取URL,采用哈希表和布隆过滤器来实现URL去

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。