基于Nutch的农业垂直搜索引擎研究与实现.doc

基于Nutch的农业垂直搜索引擎研究与实现.doc

ID:11013354

大小:3.83 MB

页数:48页

时间:2018-07-09

基于Nutch的农业垂直搜索引擎研究与实现.doc_第1页
基于Nutch的农业垂直搜索引擎研究与实现.doc_第2页
基于Nutch的农业垂直搜索引擎研究与实现.doc_第3页
基于Nutch的农业垂直搜索引擎研究与实现.doc_第4页
基于Nutch的农业垂直搜索引擎研究与实现.doc_第5页
资源描述:

《基于Nutch的农业垂直搜索引擎研究与实现.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、2014届全日制硕士专业学位研究生学位论文基于Nutch的农业垂直搜索引擎研究与实现学科专业农业推广研究方向农业信息化研究生指导教师完成时间中国陕西杨凌基于Nutch的农业垂直搜索引擎研究与实现摘要随着我国农业信息化进程推进,越来越多的农业用户希望能够快速且有效地找到自己所需要的农业信息。但通用搜索引擎返回结果存在数量庞大、专业性差、准确率低等问题,无法满足农业用户高效的查找农业信息的需求;同时现有的农业搜索引擎也处于发展前期阶段,技术不够成熟,存在低使用率、低时效性等不足之处,有待进一步改善。为了解决上述问题,本研究基于开源搜索引擎Nutch对农业垂直搜索引擎进行了有关研究。研究内容如下:

2、(1)基于Nutch的农业垂直搜索引擎研究。为了提高农业用户检索农业信息的效率,本研究在了解并深入分析开源搜索引擎Nutch的工作原理基础上,对开源搜索引擎Nutch进行二次开发,实现农业垂直搜索引擎。首先,采用人工整理判定和元搜索相结合的策略获取初始URL种子列表;其次,采用基于词库的正向最大匹配分词算法的JE分词改进Nutch中文分词,使其支持中文分词;接着,采用网络爬虫技术进行信息采集,分析网页并用改进的基于关键字的向量空间模型主题判别方法结合农业领域本体进行信息过滤,过滤掉与农业不相关的网页,并将与农业相关的网页采用倒排索引技术建立索引;最后,采用PAGERANK排序算法、网页的农业

3、相关度并结合农业领域本体改进Nutch原有的基于Lucene的网页排序算法。此外,扩展Nutch辅助功能,用户查询时向用户提供基于农业领域本体的相关词推荐和基于访问量的关键词推荐,辅助用户查询需要的信息。(2)系统管理平台设计与实现。为了方便对基于Nutch的农业垂直搜索引擎管理和使用以及农业领域本体库的管理,设计实现了C/S+B/S模式的系统管理平台,该平台提供基于Nutch的农业垂直搜索引擎的网络蜘蛛配置管理、农业领域本体库的管理、农业网址导航、用户检索接口等功能。最后,实验验证本文的搜索引擎系统管理平台具有较好的可行性、有效性。关键词:垂直搜索引擎;Nutch;信息过滤;网页排序;查询

4、扩展RESEARCHANDIMPLEMENTATIONOFAGRICULTURALVERTICALSEARCHENGINEBASEDONNUTCHABSTRACTWiththedevelopmentoftheagriculturalinformatization,moreandmoreagriculturaluserswanttofindtheagriculturalinformationwhichtheyneedquicklyandefficiently.However,generalsearchengines,withreturnedresultsofmanyproblemssuchas

5、largenumber,poorprofessionalismandlowaccuracy,cannotmeettheneedsofagriculturaluserstosearchagriculturalinformationefficiently.Meanwhile,duetotheexistingagriculturalsearchenginesareintheearlystagesofdevelopmentandimmaturetechnology,therearemanydeficienciessuchaslowutilization,lowtimeliness,etc,andth

6、esedeficienciesneedtobeimproved.Inordertosolvetheaboveproblems,thisstudy,basedonopensourcesearchengineNutch,conductedresearchonagriculturalverticalsearchengine.Studiesareasfollows:(1)ResearchonagriculturalverticalsearchenginebasedonNutch.Inordertoimprovetheefficiencyofagriculturaluserstoretrieveagr

7、iculturalinformation,basedonthein-depthanalysistounderstandtheprinciplesofthebasicworkontheopensearchengineNutch,thisstudyworksonthebasisofsecondarydevelopmentoftheopensearchengineNutchandimplementsvertical

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。