网站采集器技术分析与设计

网站采集器技术分析与设计

ID:21554937

大小:55.50 KB

页数:6页

时间:2018-10-22

网站采集器技术分析与设计 _第1页
网站采集器技术分析与设计 _第2页
网站采集器技术分析与设计 _第3页
网站采集器技术分析与设计 _第4页
网站采集器技术分析与设计 _第5页
资源描述:

《网站采集器技术分析与设计 》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网站采集器技术分析与设计赵春霞(青岛职业技术学院,青岛,255666):近年来,随着国内大数据战略越来越清晰,对X站数据抓取和信息采集技术要求越来越高,然而信息采集技术相对比较薄弱,笔者通过对X站采集器的技术进行分析,并提出了一些可实施的规则和措施,用于技术指导。关键词:X站采集器;规则;正则表达式Technicalanalysisanddesignof0cm2pt;mso-layout-grid-align:none"class=MsoNormalalign=center>ZhaoChunxia(Qingdao

2、TechnicalCollege,Qingdao,255666)Abstract:Inrecentyears,asdomesticbigdatastrategyhasbeeincreasinglyclear,craationgatheringtechniqueshavebeendemandedincreasingly,hoationgatheringtechnologyisrelativelyadeanumberofrulesandmeasuresthatcanbeimplementedfortechnicalg

3、uidance.Key;mso-layout-grid-align:none"class=MsoNormal>1X站采集的基本概念X站采集,就是从X站页面中自动抽取指定的数据,完成数据采集的工作,需要配置一些规则来指导计算机的操作,这个规则的组合称之为“采集任务”,采集任务中至少要包括X页地址、X页的拷贝数据的规则。2X站采集规则2.1单个X页采集数据的规则要采集N个有规则的页面,需要找到这N多个X页的规则,用一种规则来让计算机自动解析完成N多个X页的构成。这种解析可以由一下几种方式:按照一个可识别的规则解析,譬

4、如:数字递增,字母递增或日期递增,举个例子:article.aspx?id=1001,这是一个文章的Url,比较容易理解,id是url提交的参数,1001是一个参数值,代表一篇文章,那么就可以通过数字递增的形式来替代它,article.aspx?id={Num:1001,1999,1},这样就完成了998篇文章url的构成,系统会自动将url解析出来,{Num:1001,1999,1}是一个数字递增的参数,从1001开始递增,每次递增加1,直至1999结束。可以在采集任务中提供了很多这样的参数来帮助用户完成N多u

5、rl的构成;有些Url并不一定可以通过一定可识别的规则来构成,那该如何?譬如:s.aspx?area=北京,这是一个带入了地区参数的Url,全国有众多的城市,总不能一个一个输入。针对这种Url,可以用字典参数,首先将全国城市数据获取,建立在字典中,然后通过配置url完成这种貌似无规则url的构成,s.aspx?area={Dict:城市},这个参数表示了使用字典:城市的值,这样也可以完成成批Url的构成。按照X站的数据组织结构来成批配置Url,浏览一个X站通常是从X站的首页进入,而X站为了更好的让用户找到期望看到

6、的信息,都会按照一定的分类结构对数据进行组织,并提供一个列表对数据进行展示,分类一般都是X站的频道,列表通常是一个频道下的列表(数据索引)页面,由于数据众多,这个页面可能会有翻页,也可能还会进行子类的划分。所以,可以通过这个方式进行成批Url的配置。这个配置的过程,需要在采集任务中需要配置导航规则、翻页规则。导航规则:导航就是从一个页面进入另外一个页面的操作,X站的首页就是一个导航页,首页会有很多的栏目入口,点击就可以进入各个栏目,导航就是让计算机自动进入每个栏目,导航可以有很多,代表的就是从一个导航页进入一个栏

7、目,再进入一个子栏目,再进入一个详细的页面,如果详细页还需要提取更多的数据,那么还需要导航进入,就好像在浏览数据一样,从一个页面进入另院级课题项目:基于开源S的校园X站设计与实现(课题编号:11-A-5)92X络与信息工程2016.10一个页面,再进入一个页面,每个导航页都带有了大量的需要采集数据的url,系统会自动获取这些url来实现成批数据的采集;翻页规则:当数据量大的时候,X站会提供翻页操作,很典型的就是新闻列表页,会有很多新闻,第一页一直到第N页,所以,为了可以获取第1页以后的数据,还需要告诉计算机如何翻

8、页,这个就是翻页规则,让计算机就像浏览X页一样,一页一页翻,直至最后一页,将数据获取。3采集数据规则匹配的技巧在实际的数据采集过程中,采集的数据质量可能并不一定可以满足的要求,譬如:带有了很多的无用X页信息,也可能在用规则匹配的时候会很难找到准确的起始采集的字符和终止采集的字符。可借鉴以下采集数据规则匹配的一些技巧,和数据加工的操作,从而获取高质量的数据。根据用户规则采集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。