试析invisible web信息检索方法研究

试析invisible web信息检索方法研究

ID:34810874

大小:1.70 MB

页数:44页

时间:2019-03-11

试析invisible web信息检索方法研究_第1页
试析invisible web信息检索方法研究_第2页
试析invisible web信息检索方法研究_第3页
试析invisible web信息检索方法研究_第4页
试析invisible web信息检索方法研究_第5页
资源描述:

《试析invisible web信息检索方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南大学硕士学位论文InvisibleWeb信息检索方法研究姓名:刘婧申请学位级别:硕士专业:农业机械化工程指导教师:袁可20091101西南人学硕卜学位论殳=摘璎InvisibleWeb信息检索方法研究农业机械化工程专业硕士研究生刘婧指导老师袁可副教授摘要随着互联网上的信息量迅猛增加,搜索引擎在人们使用网络的过程中扮演着越来越重要的角色,儿乎所有上网的人都会用剑搜索引擎来查找信息。同时各搜索引擎在不断地发展,收录的网页也越米越多。但这些搜索引擎并1F可以搜剑互联网所有的网页,网上仍有一大部分页面普通搜索引擎搜索不到,这些网页就是“Invisiblew曲”,即看不见的网页。据调奄研究的结果

2、可知,InvisibleWeb中蕴含着大量有价值的信息,可是它们却不能被当前土流搜索引擎搜索到。因此,研究能够对Invisibleweb进行搜索的技术和方法就显得很有必要且很有价值。传统的面向InvisibleWeb信息的检索方式主要有两人类:目录检索和自动检索。在国外目录检索工具发展已经比较成熟,但这种检索方式奄全率低,检索速度慢,不能满足用户的查询需要。而自动检索是真止地对InvisibleWeb进行检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果返刚给j}J户。所以自动检索逐渐成为该领域研究的热点。本文首先深入分析了InvisibleWeb产生的原因及存

3、在的主要类型,并论述了这种信息资源的特点;然后分析了传统的检索方式检索InvisibleWeb存在的问题,提出将分布式技术应用丁InvisibleWeb检索中,可以增强自动检索工具的检索能力。深入分析了分布式信息检索的基本原理和体系结构,提出了采用分布式检索方式检索InvisibleWeb信息的关键步骤,即:数据集合划分、数据集合选择、结果合并。厦点研究了这三个关键步骤中的算法:提出一种基于自动聚类的数据集合划分算法1BcPA算法,实验表明该算法具有很好的效果;分析了四种典型的数据集合选择方法,并对各种算法进行了综合评价,最后提出了一种改进的数据集合选择方法,即将DTF与查洵驱动的选择方法

4、相结合的方法;对经典的CORI算法雨I新提出的结果合了f:算法一同门分析与选择下载相结合的Hybrid算法的基本原理进行了讨论,并通过实验证明Hvbrid算法的性能要优于CORI算法。关键词:InviSibIeWeb分布式检索数据集合划分数据集合选择结果合并l两南人学顺lj学位论爻AbstractAbstractWiththedrasticallyincreasingoftheinformationintheIntemet,SearchEngineshaveplayedamoreandmoreimportantroleinthecourseofusingtheInternet.Meanwh

5、ile,SearchEnginesaredevelopingconstantly'andwebpagesthattheyincludearebecomingmoreandmore.However,theseSearchEnginescannotsearchallpagesoftheInternet,andtherearestillagreatmanyofpagesthatCan’tbesearchedbygeneralSearchEngines.whicharecalled“InvisibleWeb”.Itisstudiedthattherearegreatamountsofvaluabl

6、einformationintheInvisibleWeb,whichcannotbesearchedbypresentSearchEngines.Therefore,researchontechnologiesandmethodsthatcallsearchInvisibleWebbecomesindispensableandvaluable.ThetraditionalretrievalmethodsofInvisibleWebmainlyfallintotwokinds:categoryretrievalandautomaticretrieval.Intheforeigncountr

7、iescategoryretrievaltoolshavedevelopedrelativelymature.Butthisretrievalmethodhasdisadvantages,suchaslowrecallratioandslowretrievalspeed,anditCan’tmeetusers’retrievingrequirements.Automaticretrievalmethodistrulyre

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。