基于nutch的物流信息平台网页资源定向釆集系统

基于nutch的物流信息平台网页资源定向釆集系统

ID:30796576

大小:89.02 KB

页数:7页

时间:2019-01-03

基于nutch的物流信息平台网页资源定向釆集系统_第1页
基于nutch的物流信息平台网页资源定向釆集系统_第2页
基于nutch的物流信息平台网页资源定向釆集系统_第3页
基于nutch的物流信息平台网页资源定向釆集系统_第4页
基于nutch的物流信息平台网页资源定向釆集系统_第5页
资源描述:

《基于nutch的物流信息平台网页资源定向釆集系统》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于Nutch的物流信息平台网页资源定向釆集系统1研究背景随着信息化建设的推进,各地物流信息平台相继展开建设。但相当一部分单位和地区互联网信息应用水平较低,主要体现在以下儿个方面:(1)不知道互联网上哪些信息或网站対自己有用;⑵知道了何用的网站信息源,但是又缺乏有效的获取这些信息的手段和软件;(3)无法対从网上获収的信息进行有效的管理,包括対信息的分类、存储和检索;(4)很多网站都存在内容少、更新慢等问题,一些物流科技、市场信息比较匮乏。通过分析认为产生这些问题的原因主要有以下两个方面:⑴大部分的单位计算机网络方面的人才相对比较匮乏,很多站点建立后对站点

2、的技术维护存在着诸多问题;(2)数据资源的采集完全依赖于人工上传和修改,操作人员只能通过网页和数据资源库的搜索,将挑选@的信息资源通过逐步填写关键信息和上传全部资料内容的人式更新至后台数据库,这种人工上传方式低效费时。针对上述问题,木文捉出建立棊于Nutch的物流信息平台网页资源定向采集系统。2Nutch简介Nutch是一个开源的、Java实现的搜索引擎。它提供了运行自己的搜索引擎所需的全部工具。作为一个搜索引擎,其基本组成也同其他搜索引擎一样。包括爬虫,索引和搜索三部分。其工作流程如图1所示。其整个的工作流程可以分为如下几步:⑴建立初始URL集;⑵将U

3、RL集注人crawldb数据库-inject;(3)根据crawldb数据库创建抓取列表-generate;⑷执行抓取,获取网页信息-Fetch;(5)更新数据库,把获取到的页面信息存人数据库中-updatedh;(6)重复进行3・5的步骤,直到预先设定的抓取深度,这个循坏过程被称为“产牛./抓取/更新”循环;根据segments的内容更新LinkDB数据库-invertlinks;(7)建立索引,对每个Segment生成一个索引-index;(8)从这些索引中删除冗余的网页和URL;⑼把所有这些小索引合并成一个人的索引,川來搜索;(10)川户通过川户接

4、口进行査询操作;(11)将用户査询转化为Lucene查询;(⑵返回结果。其中:(1)〜⑹属于爬虫部分,⑺〜(9)属于索引部分,(10)〜(12)属于查询部分。3系统总体设计3.1系统功能结构基于Nutch的网页资源定向采集系统是物流信息平台后台管理系统的一个子系统。它作为本地信息资源的提供者与物流信息平台的信息发布系统交互,为其提供信息资源。该子系统主要实现如下功能:(1)以物流为主题的网贝资源的监控和获取。管理员用八通过后台提交主题关键词和初始种子,山主题相关度分析模块和初始种子模块,根据主题关键字和种子网站将网络上的信息进行过滤,然后通过爬虫模块根据

5、一定的搜索策略将信息采集下來存储到木地索弓I库。对于主题和关度的分析策略是重要的影响因素。(2)以物流为主题的信息检索。管理员用八通过发送查询请求,信息检索模块调用中文分词模块対用户提交的关键词进行解析,封装成符合参数要求的检索式查询本地索引库,并将检索结果捉交排序优化模块返回用户需要的网页记录集合。在为采集的网页建立索引存储的过程中以及用户发送检索请求时,都会自动调川中文分词模块,中文分词模块根据嵌人其中的词典进行分词和匹配,保证了返回结果的准确性。⑶作为信息资源的提供者实现对网页正文的正确提収与人库。管理员用户根据网页检索结果,选取冇价值的网页资源,

6、向正文抽取模块捉出请求,由止文抽取模块完成对网页止文的抽取并向数据库提交作者、來源、正文等元数据信息,实现网页止文的自动抽取与人库。尽管Nutoh具冇较丰富的功能和相对完备的结构体系,直接将其应用于网页资源定向采集系统是不适宜的。在Nutch现冇结构基础上,还需要针对特定任务需求进行修改和完善工作。3.2系统体系结构该系统的体系结构如图3所示。它的功能流程如下:利川Nutch的网络爬虫获取web网页,并对其进行解析。每当获得一定数量的网页后就对这些获取的网页文档进行主题相关性判断,如果该文档与主题相关,一方面反作川于网络爬虫,沿着该URL信息继续爬行;另

7、一方面把那些与主题相关的网页调用Nutch的索引器來建立索引,如果不相关则放弃当前的页面,但是把该页面中的URL放人URL候选队列中'川來爬取可能的主题页面。然后用户通过搜索器进行主题搜索,对于满意的搜索结果调川止文抽取模块进行抽取人库。颜色较深的模块是本文对Nutch重点改进的部分:(1)屮文分词模块:屮文分词模块在系统屮与信息查询模块、信息索引模块密切相关,它决定了用户在检索时是否能够得到止确的结果,在Nutch基础上加人中文分词组件,以实现中文分词功能。(2)相关度分析模块:主题相关度分析模块是系统的核心模块之一,它决定页面的取舍,通过修改Nutc

8、h代码加入主题相似度判别功能,以实现对网页主题进行相似度判定和过滤。⑶优化排序模

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。