网络信息采集工具—“网聚”功能说明书功能说明书

网络信息采集工具—“网聚”功能说明书功能说明书

ID:11231547

大小:1.23 MB

页数:7页

时间:2018-07-10

网络信息采集工具—“网聚”功能说明书功能说明书_第1页
网络信息采集工具—“网聚”功能说明书功能说明书_第2页
网络信息采集工具—“网聚”功能说明书功能说明书_第3页
网络信息采集工具—“网聚”功能说明书功能说明书_第4页
网络信息采集工具—“网聚”功能说明书功能说明书_第5页
资源描述:

《网络信息采集工具—“网聚”功能说明书功能说明书》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、网络信息采集工具—“网聚”功能说明书复旦大学IPv6实验室当今互联网规模急剧膨胀,网络信息异常丰富,除了包涵传统的报纸、刊物等信息类型外,互联网上又出现了各种各样新的信息发布类型:各种各样的论坛、聊天室、博客、等等。随着诸多类型信息的大规模涌现,就需要一些适应于网络的信息检索模式,其中有像百度,google这样的网页信息检索网站,也有像搜狐、网易等一类的发布尽可能齐全的信息的网站,同时为了大量信息的搜索和长时间的跟踪信息,网上也出现了许多的信息搜索软件,有英国Autonomy公司的PortalInABox、21世纪信息论坛开发的网页信息采集助手、百度在线开发的“网事通”实时

2、信息系统和广州西风软件开发的“情报探索者”(InfoGate)信息采集加工系统等等。但是对这些信息检索工具使用和分析后发现他们存在一些不足之处。搜索网站只是对包涵用户输入字符的相关网页进行搜索,无法进行系统的资料存储和信息整合。而像“网事通”、“网页信息采集助手”这一类软件,差不多只是搜索网站的软件版和单机版,并且搜索到的信息并没有进行格式化,只是将我们需要的信息网页进行了搜集和下载(如图),信息的发布者、发布时间等等全套资料并没有完全的格式化。并且这些搜索助手还有一个共同的缺点就是不能够对特定的媒体进行广度搜索和完全爬取,比如针对某一具体论坛的所有发帖信息,这些信息搜索工

3、具就显得无能为力了。网页采集助手采集的信息及处理方式我们开发的信息采集系统可以对类似于论坛、博客、telnet等网络信息发布类型进行搜索,在搜索到最广泛和最深度的信息的同时,信息搜索系统会根据用户的具体要求对搜索到的信息进行格式化,按照统一的格式保存。对类似于论坛形式的信息发布类型(此处以论坛来讲解),我们的系统可以针对具体的论坛进行配置以适应不同论坛的网页设计,信息搜集系统中有论坛类型的配置向导(如图1)来进行配置。首先向导会打开一个将要搜索信息的论坛的html文档,然后程序会对html文档进行分层编码,用户对需要的信息对象进行配置(如图2)。图1图2由于软件已经对htm

4、l文档进行了内部xml编码,所以整个html代码可以分层显示出来,用户可以根据分层显示的html代码对以后搜索到的信息进行自定义格式化(如图3、4)。同时用户可以对信息的格式内容根据需求进行过滤,以搜索对用户有用的信息资料(如图5)。图3图4图5对搜索信息进行格式化配置后,就可以进行论坛的整体信息进行配置,包括论坛的登陆、代理的使用、论坛的版面情况,以及爬虫在爬论坛时运行情况。图6在对整个论坛配置完毕以后,论坛爬虫就会根据用户的特定配置运行,在特定的时间启动,对用户指定的对象按照用户要求的的信息要求进行搜索(如图7),同时搜索的信息会根据信息格式统一保存到用户指定的数据中,

5、以便于用户的分析处理。由于软件是针对html代码进行解析,并且用户可以自行指定信息的格式和内容,所以,如果用户合理配置,则可以将此软件用于各种网站的整站爬取,然后对整站信息进行指定的格式化存储。图7针对类似于博客的信息发布类型,我们的信息搜集系统由专门的blog爬虫。用户可以设定需要搜索的博客网站和网站用户的相关信息,爬虫会利用广度优先搜索算法进行最广度的博客用户搜索,用户也可以配置不用博客网站之间的互爬,来提高信息搜索广度(如图8、9)。图8图9随后,软件会根据搜索到的博客去对每篇博客的信息进行搜集,用户可以设定搜索到的信息的各种格式,同时对不同博客网站构架进行信息爬取设

6、置。(如图10、11)。博客爬虫会将搜索到的信息根据用户的需要存储到用户的数据库中。图10图11对于telnet形式的信息发布渠道,我们的信息搜集搜集系统也有专门的爬虫来搜索信息,用户同样可以根据自己的需要和针对搜索对象进行设定,搜索系统会将搜索到的信息按照用户的要求进行信息的格式化,然后存于数据库。总的来说,我们的信息搜集系统据有很强的灵活性,它兼容现今所有的信息发布媒介,系统即可以进行广度的信息搜集,也可以针对某个具体的对象进行完全爬取,用户可以随意设定信息搜索系统的工作时间和搜索数量,同时系统可以自动地对搜索到的信息根据用户的需要格式化,统一保存到用户本地的数据库,用

7、户可以方便的进行分析处理。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。