基于nutch的专题网页资源采集服务系统的设计与实现

基于nutch的专题网页资源采集服务系统的设计与实现

ID:33944196

大小:656.05 KB

页数:8页

时间:2019-03-01

基于nutch的专题网页资源采集服务系统的设计与实现_第1页
基于nutch的专题网页资源采集服务系统的设计与实现_第2页
基于nutch的专题网页资源采集服务系统的设计与实现_第3页
基于nutch的专题网页资源采集服务系统的设计与实现_第4页
基于nutch的专题网页资源采集服务系统的设计与实现_第5页
资源描述:

《基于nutch的专题网页资源采集服务系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、总第190期2010年第3期基于Nutch的专题网页资源采集服务系统的设计与实现123常智荣马自卫李高虎1(北京邮电大学计算机学院北京100876)2(北京邮电大学图书馆北京100876)3(北京邮电大学资产经营有限公司北京100876)【摘要】在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及

2、搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。【关键词】Nutch网页资源采集中文分词插件Webservice集成服务【分类号】G250ResearchandImplementationofNutch-basedWebsiteHarvestandServiceSysteminSpecialField123ChangZhirongMaZiweiLiGaohu1(CollegeofComputer,BeijingUniversityofPostsandTelecommu

3、nications,Beijing100876,China)2(BeijingUniversityofPostandTelecommunicationLibrary,Beijing100876,China)3(BuptAssetsManagementCo.,Ltd,Beijing100876,China)【Abstract】ThispaperproposesthedesignofNutch-basedWebsiteHarvestandServicesysteminSpecialfieldundertheframeworkofdigitalli

4、brarysystemsintegration.Itintroducesinformationfilteringmodule,dictionary-basedChineseanalyzermodule,GUIinformationmodule,topic-knowledgebasedinformationprocessingmoduleaswellastheWebser2vice-basedsearchservicemodulestoimprovefunctionandperformanceofthesystem.Itfocusesontex

5、tparsingfilters,plugindevelopmentandapplicationsofthelevel-automaticclusteringofthesearchresults.Finally,integrationwithothersubsystemindigitallibraryisrealizedthroughtheWebservice-interface,whichcanprovidecomprehensiveandprofes2sionalservices.【Keywords】NutchWebsiteharvestC

6、hineseanalyzerpluginWebserviceIntegrationservices1引言网页资源成为一种重要的学术资源形式,在数字图书馆的资源建设中日益受到重视,搭建能够对中文网络信息资源进行处理的网络信息资源采集与服务平台,是一项非常有意义的研究课题。常用的开源采集工具有收稿日期:2010-03-05收修改稿日期:2010-03-08XIANDAITUSHUQINGBAOJISHU19©1994-2010ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserv

7、ed.http://www.cnki.net数字图书馆[1][2][3][4]Nutch、Heritrix、WCT、NetarchiveSuite、SmartN-WHSS系统主要实现4方面的功能:[5][6]Crawler、Wget等。上述软件各具特色,其中Nutch(1)专题学术网络信息的监控和获取不仅提供了抓取网页的功能,还提供了解析网页、建立管理员用户通过管理员工作站提交资源定制信息链接数据库、对网页进行评分、建立Lucene索引和提给信息抓取控制服务器,由信息过滤模块,根据主题关供检索界面等丰富的功能,提供了一个完整的搜索引键字和种子

8、网站将网络上的信息进行过滤,然后通过擎基本框架。自Nutch0.8.0版本后的核心代码基于信息抓取控制模块根据一定的搜索策略将信息采集下[7]Hadoop架构实现,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。