互联网信息定向采集系统的设计与实现

互联网信息定向采集系统的设计与实现

ID:34546498

大小:265.63 KB

页数:3页

时间:2019-03-07

互联网信息定向采集系统的设计与实现_第1页
互联网信息定向采集系统的设计与实现_第2页
互联网信息定向采集系统的设计与实现_第3页
资源描述:

《互联网信息定向采集系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第27卷2007年6月计算机应用ComputerApplication8V01.27June2007文章编号:100l一9081(2007)Sl—0016—02互联网信息定向采集系统的设计与实现宫进,胡长军,曾广平(北京科技大学信息工程学院,北京100083)(gon团58@163.com)摘要:本系统通过提供一个基于定制模板的下载机制,准确定位所需信息在网页HTML结构树中的位置,对网页的结构进行解析并下栽指定位置的内容,提取准确而高效的信息,并且能定期自动跟踪相关网站或网页,进行比较分析、抽取和规整入库等,对互联网信息进行有针对性的定向采集,进而从互联网上获取所需

2、信息。关键词:定向采集;模板;解析;XML结构中图分类号:TP393.09文献标识码:A1系统架构及功能说明信息采集过程可表现为用户指定需要采集的内容,以及相应的采集规则,然后采集系统根据用户提供的这些信息进行采集。它不是用于互联网上未知信息、未知网站的自动搜索,而主要是用于指定网站、指定栏目下的信息采集,其采集的最终结果不再是页面,而是深入到站点和页面内部,采集其中有效数据项和相关图片附件。采集系统的开发目的就是提供一个有力的工具,帮助普通用户(熟悉基本的HMTL)而非编程人员从异构数据源收集信息,并转换为他所需要的信息。其功能包括采集模板定制、采集任务定制、分析下载、直接

3、入库等。整个采集过程基于参数和配置管理控制,提供图形化界面和向导式操作。系统将为最终用户提供一步到位的信息再整理过程,将浩瀚信息从无序化到有序化,可广泛用于情报收集、信息监控、行情跟踪、专业信息资源站、内部知识系统或天气预报、股市、汇率、商情、动态新闻等的实时采集更新等。设计时充分考虑最大程度的通用性、易用性¨J。图l系统架构本系统的系统架构如图1所示,它主要包含了下载模板管理、下载任务管理和信息下载三大功能,在下载模板管理中,模板的建立、修改体现了这个部分的核心技术,通过把指定网页的H1ML文件解析成xML结构树,选取XML结构树中所需信息的内容块,准确定位这些内容块在xM

4、L结构树中位置,为信息下载部分提供精确的下载位置,从而使采集系统只采集所需要的信息,过滤掉其他无用信息。把这些内容块在结构树中的位置信息保存到相应的配置文件中,这就得到了采集所需的下载模板。模板的修改主要是对采集时检验不正确的模板进行正确的修改。下载任务管理主要有任务的建立、修改等功能,建立任务就是从已经做好的下载模板中把采集信息所在的模板组合在一起,形成一个下载任务,再指定任务的下载时间及间隔下载的周期,这样就建立了—个采集所需的任务。修改任务可以添加和删除已有任务中所包含的下载模板以及任务的下载时间。信息下载是通过一个触发器对配置好的任务在指定的时间触发下载。在下载的时候

5、主要是进行了HTML解析、uRL去重和过滤等功能,进而得到我们需要的下载内容。2信息采集系统的设计2.1系统设计原理传统的采集技术主要采用“网络蜘蛛+全文检索”的模式,这种模式存在明显的弊病Bo:1)不能采集应用复杂页面显示技术的网站(此类站点占全部站点的绝大部分);2)极其浪费用户的网络带宽和存储空间;3)不能实现网页数据的全自动复杂处理;4)数据被采集后将失去原有逻辑关系。网页元素数字化定位技术的原理简而言之就是充分利用网页信息的结构化特性,以坐标的方式定位和抽取数据。网页数据和一般的文本数据有很大的差异:1)网页数据是结构化数据,信息的内容被各种HTML标记分割成不同的

6、部分,因而网页中的数据自己就携带了准确的位置信息。2)网页数据中相当大部分是与内容信息无关的H7I’ML标记,这些标记若采用传统文字匹配过滤模式将被作为冗余数据处理,这种冗余数据量异常庞大,常常占到整个页面文字的70%~80%。3)网页数据是一种动态变化的数据形式(网页结构经常发生变化),传统模式的文字处理对动态变化数据的处理不能满足要求。传统意义上的信息采集其实是页面下载,并将H1ML源文件(或者经过滤之后的H1[.ML源文件)作为文本进行全文索引,并通过全文检索的结果进行离线浏览。这种做法能够满足使用者的关键字检索要求,搜索引擎一般都是采用这种做法实现的。在本系统中,我们

7、根据网页内容的表现形式把网页分为两种类型:有主题网页(topic)、Hub网页(Hub),其中有主题网页是指网页中通过文字描述了一件或多件事物,是有一定收稿日期:2006一09—25;修订日期:2006一11一05基金项目:国家自然科学基金资助项目(60373008)作者简介:宫进(1978一),男,硕士研究生,主要研究方向:网络信息采集、数据挖掘;胡长军(1963一),男,教授。博士生导师,主要研究方向:新一代并行语言与并行编译技术、语义网格与数据网格;曾广平,男,教授,博士生导师,主要研究方向:分布

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。