资源描述:
《基于nutch专题搜索引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、您的论文得到两院院士关注软件时空文章编号:1008-0570(2010)10-3-0193-02基于Nutch专题搜索引擎的研究ResearchonthetopicalsearchenginebasedonNutch(安徽大学)郑小波郑诚封军ZHENGXiao-boZHENGChengFENGJun摘要:由于通用搜索引擎包含了广泛的主题,其搜索结果无法满足领域用户对信息的精确查找,而专题搜索引擎是解决特定领域的搜索引擎,满足了领域用户的检索要求。本文是基于Nutch框架进行二次开发,通过专题资源发现、中文分词、主题过
2、滤来完成专题搜索引擎构建。关键词:Nutch;搜索引擎;中文分词;专题搜索中图分类号:TP393文献标识码:AAbstract:Duetothefactthatthegeneralsearchenginesencompassawiderangeofthemes,theycan’tmeettheusers’needtolo-catethespecificinformationinaparticularfield.Inthiscircumstance,thetopicalsearchengineisintendedtos
3、earchinaparticularfieldtosatisfytheusers’retrievalneed.ThisarticleisrevolvingaroundthesecondarydevelopmentbasedonNutchframework.Thetopicalsearchingfulfillstheparticularsearchingmissionwiththetopicalresourcediscovery,themesiftingandChinesewordsegmenta-技tion.Keyw
4、ords:Nutch;Searchengine;Chinesewordsegmentation;Topicalsearch术题搜索引擎开发。Nutch是Lucene项目下的一个子项目,是一创引言个用Java实现开源的的搜索引擎。它基于Lucene的查询引擎自搜索引擎出现以来,搜索引擎便得到了极大的发展。搜索和索引引擎,包括了网页爬虫,网页解析器,索引器以及检索器,新引擎解决了海量互联网资源的快速定位和检索,在人们的日常提供了构建搜索引擎所需的全部工具。Nutch提供了开源代码生活和工作中发挥了越来越大的作用,随着互联
5、网的发展,通用修改和重构方便,并提供了插件机制,便于开发者完成需求搜索搜索引擎的结构越来越复杂,包含了广泛的主题,其搜索结果无引擎的开发。法满足用户对信息的精确查找,这样,互联网就需要快速、准确2专题搜索引擎构建查找信息的专题搜索引擎。专题搜索引擎是解决特定领域的问题,通过网络爬虫获取主题信息并建立索引,对用户提供相关信2.1系统框架设计息和服务。专题搜索引擎是对通用搜索引擎的领域细化,满足了专题搜索引擎是对领域用户提供服务,需要提供相应的用行业用户对领域信息快速、准确查找主题的需求。本文的基本户访问界面,整个系统架
6、构采用Web服务器模式,用户通过浏览结构是:首先介绍了相关概念;其次重点介绍专题搜索引擎的构器访问,本系统大概分为专题资源发现、网页爬取、网页分析、主建;最后给出了实现结果和总结。题过滤、网页索引和网页检索等内容,其专题搜索结构流程图如图2-1所示:1相关概念Lucene是Apache软件基金会一个基于Java全文信息检索的工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索的功能。Lucene作为一个广泛流传的全文搜索引擎,引得了很多的开发喜好者,它具有开放的源代码,开发者不仅可以充分利用Luce
7、ne提供的核心开发,也可以研究搜索引擎的架构原理,同时Lucene具有良好的跨平台系统兼容稳定,并改进了传统全文检索引擎的倒排索引,实现了分块索引提高文件索引速度。目前,搜索引擎在普通应用系统中得到普及,其比较好的开源版本有:Nutch,Compass,LIUS,本文采用的是Nutch来完成的专图2-1专题搜索结构流程图郑小波:硕士2.2专题资源发现基金项目:基金申请人:郑诚;项目名称:基于领域本体的语专题资源发现是保证搜索引擎数据量和可用性的重要前义检索关键技术研究;基金颁发部门:安徽省教育厅提,通过资源发现机制可
8、以形成一系列的领域网络资源。专题资(KJ2009A57);安徽省高校省级自然科学研究计划源发现有两种方式:第一种是元搜索策略,即通过程序从大型的《PLC技术应用200例》邮局订阅号:82-946360元/年-193-软件时空《微计算机信息》(管控一体化)2010年第26卷第10-3期搜索引擎中下载相关结果,这样可以得到页面中大量包含专题其中w(