农业信息资源整合系统研究与应用

农业信息资源整合系统研究与应用

ID:38118445

大小:82.74 KB

页数:3页

时间:2019-05-25

农业信息资源整合系统研究与应用_第1页
农业信息资源整合系统研究与应用_第2页
农业信息资源整合系统研究与应用_第3页
资源描述:

《农业信息资源整合系统研究与应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、安徽农业科学,JournalofAnhuiAgri.Sci.2007,35(22):6993-6994,6997责任编辑王云平责任校对俞洁农业信息资源整合系统研究与应用孙素芬,罗长寿,张峻峰,于峰,张树亮(北京市农林科学院农业科技信息研究所,北京100097)摘要应用中间件、元搜索及网络爬虫等技术与思想构建农业信息资源整合系统,以期对已有的农业信息资源进行整合,从而为用户提供方便服务。关键词农业信息资源;整合;中间件;元搜索;爬虫中图分类号TP392文献标识码A文章编号0517-6611(2007)22-06993-02ApplicationandResearch

2、ofAgriculturalInformationResourceIntegrationSystemSUNSu-fenetal(InstituteofInformationonScienceandTechnologyofAgriculture,BeijingAcademyofAgricultureandforestrySciences,Beijing100097)AbstractTheagriculturalinformationresourceintegrationsystemwasconstructedbyapplyingthetechnologyofmidd

3、leware,meta-searchandcrawler.Thesystemcouldbeusedforintegratingheterostructureagriculturalinformationresource,andprovidingtheconvenientservicesforusers.KeywordsAgriculturalinformationresources;Integration;Middleware;Meta-search;Crawler农业信息资源主要包括农业网页信息,涉农部门建设的2网络信息资源整合技术研究农业数据库,以及专业数据库

4、厂商提供的农业数据信息等。网络信息资源整合的目的主要是通过构建专业网络信由于这些信息分散在各种异构资源中,并且在数据结构、平息搜索引擎,迅速和准确地找到想要的农业网络信息。网络台及系统环境等方面有差异性,需要花费较高的成本才可达信息搜索引擎由网络爬虫、过滤器、索引器和用户接口4个到满意的查询效果。通过对农业异构信息资源特性的分析,部分组成。应用中间件、元搜索及网络爬虫等技术进行资源整合,可提[1-2]2.1网络爬虫网络爬虫的功能是在互联网中漫游,高农业信息获取的便捷性,对于为农业信息用户提供高效的发现和搜集农业有关信息。网络爬虫的基本算法是由一组信息服务有重大作用

5、与意义。种子URL开始,由于主要面向的是农业信息资源,所以先人1系统总体结构工确定一些权威的农业站点作为初始的爬行种子。网络爬农业信息资源整合与服务过程中主要面对的信息可分虫根据广度优先策略爬行,从种子URL集中取得一个URL,为3类:部门自建数据资源(自建的数据库等)、联合资源(引确定相应主机的IP地址,下载相应的页面文档,并且提取出进或购买的数据资源)及网络信息资源。对此,农业信息资包含在页面中的链接。对于提取出来的每个链接,如果是相源整合的思想为:针对不同的信息来源,信息资源整合系统对链接,就将其转化为绝对链接。然后对链接按一定策略进位于多源异构数据源和应用

6、程序之间,分别采用中间件、元行过滤,通常包括检验该链接是否已遇到过,如果没有,就将搜索及网络爬虫等技术进行相应的处理,向下自动去收集、其加入待下载的URL序列中。网络爬虫从下载库中取得每整理和协调各数据源,向上为用户访问提供整合后的数据服个站点的信息,并为其建立下载线程。同一网站的所有网页务,对多种常用的信息资源进行整合与管理,在此基础上为管理信息被放在页面信息库中的同一张表中。下载下来的用户提供快捷的信息服务,包括科技、市场、政策等信息,其网页在经过滤后,去除HTML标签和多余的空白字符,然后整体结构见图1。压缩并按原来的网站目录结构存放在文件库中。2.2过滤器

7、由于系统主要收集农业信息资源,因此先选定代表性的Web页面,通过其中的关键字计算出有代表性的文档向量RDV。然后,在爬行过程中,对于每个下载下来的HTML文档,根据向量空间模型计算它与RDV之间的相关度。如果相关度大于阈值,该文档即在搜索领域内,保存该文档并且提取其中的链接,否则抛弃整个文档,对于相关度较高的文档,将继续参加RDV的计算。2.3索引器Lucene是一个全文索引引擎工具包,它为数据访问和管理提供了简单的函数调用接口,可以方便的嵌入[3-4]到各种应用中实现全文索引/检索功能。本研究采用DotLucene平台,DotLucene是从Lucene(jav

8、a)项目移

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。