欢迎来到天天文库
浏览记录
ID:34810874
大小:1.70 MB
页数:44页
时间:2019-03-11
《试析invisible web信息检索方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西南大学硕士学位论文InvisibleWeb信息检索方法研究姓名:刘婧申请学位级别:硕士专业:农业机械化工程指导教师:袁可20091101西南人学硕卜学位论殳=摘璎InvisibleWeb信息检索方法研究农业机械化工程专业硕士研究生刘婧指导老师袁可副教授摘要随着互联网上的信息量迅猛增加,搜索引擎在人们使用网络的过程中扮演着越来越重要的角色,儿乎所有上网的人都会用剑搜索引擎来查找信息。同时各搜索引擎在不断地发展,收录的网页也越米越多。但这些搜索引擎并1F可以搜剑互联网所有的网页,网上仍有一大部分页面普通搜索引擎搜索不到,这些网页就是“Invisiblew曲”,即看不见的网页。据调奄研究的结果
2、可知,InvisibleWeb中蕴含着大量有价值的信息,可是它们却不能被当前土流搜索引擎搜索到。因此,研究能够对Invisibleweb进行搜索的技术和方法就显得很有必要且很有价值。传统的面向InvisibleWeb信息的检索方式主要有两人类:目录检索和自动检索。在国外目录检索工具发展已经比较成熟,但这种检索方式奄全率低,检索速度慢,不能满足用户的查询需要。而自动检索是真止地对InvisibleWeb进行检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果返刚给j}J户。所以自动检索逐渐成为该领域研究的热点。本文首先深入分析了InvisibleWeb产生的原因及存
3、在的主要类型,并论述了这种信息资源的特点;然后分析了传统的检索方式检索InvisibleWeb存在的问题,提出将分布式技术应用丁InvisibleWeb检索中,可以增强自动检索工具的检索能力。深入分析了分布式信息检索的基本原理和体系结构,提出了采用分布式检索方式检索InvisibleWeb信息的关键步骤,即:数据集合划分、数据集合选择、结果合并。厦点研究了这三个关键步骤中的算法:提出一种基于自动聚类的数据集合划分算法1BcPA算法,实验表明该算法具有很好的效果;分析了四种典型的数据集合选择方法,并对各种算法进行了综合评价,最后提出了一种改进的数据集合选择方法,即将DTF与查洵驱动的选择方法
4、相结合的方法;对经典的CORI算法雨I新提出的结果合了f:算法一同门分析与选择下载相结合的Hybrid算法的基本原理进行了讨论,并通过实验证明Hvbrid算法的性能要优于CORI算法。关键词:InviSibIeWeb分布式检索数据集合划分数据集合选择结果合并l两南人学顺lj学位论爻AbstractAbstractWiththedrasticallyincreasingoftheinformationintheIntemet,SearchEngineshaveplayedamoreandmoreimportantroleinthecourseofusingtheInternet.Meanwh
5、ile,SearchEnginesaredevelopingconstantly'andwebpagesthattheyincludearebecomingmoreandmore.However,theseSearchEnginescannotsearchallpagesoftheInternet,andtherearestillagreatmanyofpagesthatCan’tbesearchedbygeneralSearchEngines.whicharecalled“InvisibleWeb”.Itisstudiedthattherearegreatamountsofvaluabl
6、einformationintheInvisibleWeb,whichcannotbesearchedbypresentSearchEngines.Therefore,researchontechnologiesandmethodsthatcallsearchInvisibleWebbecomesindispensableandvaluable.ThetraditionalretrievalmethodsofInvisibleWebmainlyfallintotwokinds:categoryretrievalandautomaticretrieval.Intheforeigncountr
7、iescategoryretrievaltoolshavedevelopedrelativelymature.Butthisretrievalmethodhasdisadvantages,suchaslowrecallratioandslowretrievalspeed,anditCan’tmeetusers’retrievingrequirements.Automaticretrievalmethodistrulyre
此文档下载收益归作者所有