基于主题搜索引擎地研究的实现

基于主题搜索引擎地研究的实现

ID:32314002

大小:1.73 MB

页数:55页

时间:2019-02-03

基于主题搜索引擎地研究的实现_第1页
基于主题搜索引擎地研究的实现_第2页
基于主题搜索引擎地研究的实现_第3页
基于主题搜索引擎地研究的实现_第4页
基于主题搜索引擎地研究的实现_第5页
资源描述:

《基于主题搜索引擎地研究的实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询请求。相比之下,主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的内容可以更深,搜索的周期可以更短,因此能满足用户对快速、准确的获取信息资源的要求。目前,基于主题的Web搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象。本文首先简要介绍了搜索引擎及其发展现状,分析了存在的优缺点;然后通过对当前通用搜索引擎技术的学习和研究,结合基于主题搜索引擎的特点,设计出了基于主题搜索引擎

2、的各个模块和总体的架构;而后本文分三个章节详细分析、设计和实现了该搜索引擎的三大模块:基于规则的中文分词模块、基于主题的Web信息抓取和Web内容的存储与索引模块。它们构成了本文的核心部分。通过对基于规则的中文分词模块的设计和实现,创新性地将词典、词性、词频信息,改进的传统分词算法和中文文法筛选规则结合起来,从而大大提高了分词的正确率;通过对基于主题的Web信息抓取模块的设计和实现,在完成了基本的信息抓取的基础上,还利用动态Web信息抓取技术解决了Web2.0给传统信息抓取带来的困难;通过对Web内容的存储与索引模块的设计和实现,实现了文档数据的B+树索引存储,还通

3、过对CLucene源码的修改和扩展,将CLucene索引模块结合进来,实现了扩展性较好、效率较高的中英文Web内容的索引和存储。在文章最后的总结也讨论了这些技术及其将来还需进一步研究的内容。关键词:主题搜索引擎,中文分词,网络蜘蛛,B+树索引,CLucene分类号:TPl81;TP393.092AstheconstantlychangingofWebinformation,itsbecomingmoreandmoredifficultforsearchenginetoprovideahigh-quality,comprchensiveandtimelyupdated

4、informationsearchingservicetou∞f.ThebasiclimitationisthatitattemptstoindexalltheWebinformationandservicestoalltopicsinquiriesrequest.Incontrast.topic-basedsearchengineonlycoversspecifictopicrelatedwebinformation,SOthatitscontentc衄bedeeperanditsupdatingcycle滩beshorter.Alsoitc缸meetthereq

5、uirementsoffastandaccurateacoesstoinformationresour嘲.Atpresent,topic-basedWebsearchengineisbecomingahotresearchanddevelopmentobjectofcomputorscienc圮andinformationindustry.Firstly,thispaperdescnloesthepresentstatusofsearchenginedevelopment,andanalysestheadvantagesanddisadvantagesoftheex

6、istingsearchenginebriefly.Andthenthispaperdesignseachmoduleandtheova'alla代抽itectIⅡeofthetopic-basedsearchenginebystudyingongeneralsearchenginetechnologies,andbycombiningthecharacteristicsoftopic-basedsearchengine.Andthenthispaperorganizesthreechapterstodescribetheanalysis,designation,a

7、ndimplementationofthreemajormodules:rules-basedChinesewordsegmentationalgorithm,topic-basedscrawlingmodule,andWebinformationindexingandstoragemodule.Therule-basedChinesewordsegmentationalgorithmcombinesdictionary,partofspeech,wordfrequencyinformation,improvedtraditionalwordsegmentati

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。