面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用

面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用

ID:43357327

大小:50.01 KB

页数:4页

时间:2019-09-30

面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用_第1页
面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用_第2页
面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用_第3页
面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用_第4页
资源描述:

《面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、面向主题搜索论文:基于Lucene的面向主题信息搜索系统的关键技术分析及应用【中文摘要】网络信息的爆炸性增长使搜索引擎成为人们上网必不可少的工具之一。其中应用最广泛的是以Goolge、百度为代表的综合性搜索引擎,这类搜索引擎服务对象是网络大众用户它为广大网络用户在查找信息上提供了很大的方便。但随之而来的查找结果的准确率低,其一是因为由于抓取网页数量以指数级别增大,对这些网页的预处理能力降低,致使查询结果中存在大量重复网页;其二,人们由于生活环境与工作环境的不同,对信息关注方向也不同,例如一个气象工作人员,他们希望查询到的结果会

2、把与气象相关的网页优先排序在前几页,而一个农业工作者希望将与农产品相关的网页优先显示,这样一来综合性搜索引擎便无法满足这类专业领域人员的需求了。在这种背景下面向主题的搜索引擎应运而生。面向主题的搜索引擎系统与综合性网页搜索引擎最大的区别就是对网页信息进行了结构化信息抽取,这样做的好处是,在把网页分化成小粒度的单元后,更加方便对网页文档的内容进行加工处理,如网页净化、去重等。由于搜索引擎中运作着的各部分是环环相扣,当有了质量较高的网页预处理过程,接下来可以减小索引的负担,且搜索出的结果准确率更高,使用户有更高的体验度。面向主题搜

3、索系统中,将它分为四大主要部分,...【英文摘要】Theexplosivegrowthofnetworkinformationmakesearchenginesbecomeanindispensabletool.OneofthemostrepresentativecomprehensivesearchenginesystemisGoogleandBaidu,suchsearchengineprovidesservicestothepublicwebusers,whichgiveabigfavortouserstofinduse

4、fulinformationontheinternet.Butwhichcomeswiththeconvenience,thesearchresulthavealowprecision.Oneisbecausethenumberofpagestocrawlisincreasinginanindexlevel,sothewebpre-processingabilityont...【关键词】面向主题搜索LuceneTextTilingHtmlParser网页消重【英文关键词】subject-orientedsearchsystem

5、LuceneTextTilingpurificationduplicatewebpageselimination【目录】基于Lucene的面向主题信息搜索系统的关键技术分析及应用摘要4-6Abstract6-7第1章引言11-191.1课题研究背景及现状111.2搜索引擎技术的研究背景与发展趋势11-141.2.1搜索引擎的发展历史11-121.2.2搜索引擎的现状与发展趋势12-141.3面向主题的搜索引擎系统14-171.3.1面向主题搜索引擎的优势15-161.3.2面向主题搜索系统的研究现状16-171.4本文研究内容

6、17-181.5本文组织结构18-19第2章面向主题搜索系统的关键技术分析19-402.1数据搜集器19-262.1.1Heritrix简介21-222.1.2Heritrix与Nutch的比较22-232.1.3Heritrix的配置使用23-262.2网页解析技术HTMLPARSER26-312.2.1HtmlParser概述262.2.2HtmlParser中主要类的介绍26-292.2.3HtmlParser中遍历方式29-312.3中文分词技术31-342.3.1中文分词的研究现状31-332.3.2常见分词系统33

7、-342.4全文搜索框架LUCENE34-382.4.1Lucene概述342.4.2Lucene索引结构34-352.4.3Lucene工作原理35-382.5向量空间模型在面向主题搜索系统中的应用38-40第3章面向主题搜索系统的设计40-453.1系统提出背景403.2系统框架设计40-423.3词典库设计42-433.3.1气象专业词库423.3.2动态词库42-433.4开发环境与系统编程框架43-453.4.1系统的开发环境433.4.2系统编程框架与技术介绍43-45第4章数据搜集与网页预处理模块45-714.1

8、数据搜集模块详细设计45-514.1.1数据搜集模块的基本配置45-474.1.2面向主题的搜集47-504.1.3实验结果分析50-514.2网页预处理模块详细设计51-714.2.1网页净化模块51-624.2.2网页消重模块62-71第5章LUCENE索引与搜索模块71

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。