欢迎来到天天文库
浏览记录
ID:32032813
大小:3.40 MB
页数:51页
时间:2019-01-30
《【硕士论文】基于时态信息的主题搜索引擎的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘夏摘要随着豆联网的迅速发展,丽对这样一个全球最人的信息资源宝库,搜索引擎为人们提供了获取信息的入口,得到了极人的流行。但山于W曲多元化信息的指数级增长和人们需求的多样化,通用搜索引擎返回的结果已经不能满足人们对个性化信息检索服务的要求,于是主题搜索引擎应运而生。与通用搜索不同,主题搜索引擎仅仅专注于某一领域,为特定领域的用户提供更为精确、更全面、更及时的搜索服务。它的很多技术与通用搜索引擎类似,但是还有一些自己独特的技术和一些新的需要解决问题,成为近年来研究的热点。传统的主题搜索引擎仅支持基于关键字的搜索方式,因此在许多情况下难以有效地表达用户的查询需求,例如
2、在新闻主题搜索引擎中查询“最近三天内关于甲型流感的新闻”。通过对网页信息的分析,时态信息是网页的一个本质属性,比如网页的修改时间、新闻网页中蕴含的新闻事件时间等。因此,如果能够利用网页的时态信息来增强主题搜索引擎的效率,使用户可以表达时态相关的查询需求,同时搜索引擎自身也提供时态查询处理能力,则可以有效地提高主题搜索引擎的性能。本文围绕基于时态信息的主题搜索引擎开展了若干关键技术的研究,重点探讨了时态主题搜索引擎的设计与实现、主题爬虫、搜索结果的时态排序等问题。本文的主要贡献可归纳为:(1)通过分析W.eb结构和网页特征,提出并实现了一个混合主题爬虫。该爬虫首先
3、对抓取下来的网页使用基于VIPS的网页分析算法计算网页与主题的相关性并选取相关链接,然后结合元搜索技术来提高爬虫跨越W.eb社区的能力,使其在保有精确度的同时具有好的召回率。(2)研究了结合不同网页时间的搜索结果排序算法,提出了三种适合不同时态语义搜索的网页排序算法。这类算法分别就用户对网页的内容时间、修改时间及双时态时间的查询需求,对传统的PageRank算法中的转移概率和跳转概率进行了改进,提高了排序结果的精确性。(3)设计并实现了一种能够根据网页的内容时间和修改时间进行Wreb网页检索的主题搜索引擎,该系统同时支持文本检索和时态检索。实验表明,基于时态信息
4、的主题搜索引擎具有比单纯的基于文本关键词的主题搜索引擎具有更好的查询表达能力和查询处理能力。关键词:主题爬虫主题搜索引擎时态排序时态信息检索第1带绪论第1章绪论1.1研究背景和意义随着Intemet的迅猛发展和W曲信息的不断膨胀,人们对Web服务的种类和质量要求越来越高。如何从Web上及时有效地查找到真正所需要的信息,已经成为研究者面临的难题。尽管传统的适用于所有用户的各主流的通用Web搜索引擎,如Google,Yahoo!,MSNSearch和百度等,给人们提供了很多便利,但很多时候显得越来越力不从心,其局限性可总结如下(周立柱等,2005):(1)不同领域、
5、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)互联网数据形式丰富,图片、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字或者基于内容的检索机制,目前虽已取得了较大突破,但在许多情况下,这两种方式都无法良好地表达用户的查询需求,从而导致检索结果的低相关性。例如,类似“查找近三天有关汽车消费
6、税的新闻”之类的Web查询在传统搜索方式下很难达到好的效果。针对上述情况,面向主题的搜索引擎应用而生,并成为未来搜索引擎的发展方向。主题搜索引擎,又称垂直搜索引擎,是指专门用于搜索某~学科、某一领域或某~类信息的搜索引擎。其特点就是“专、精、深”,且具有行业色彩,相比通用搜索引擎的海量信息无序化,主题搜索引擎则显得更加专注、具体和深入。近年来,在学术界和产业界产生了新闻搜索、购物搜索等一批垂直搜索技术,主要是针对特定站点信息的实时更新。目前主题搜索引擎火部分处于研究和试验阶段。面向主题的网络信息搜索主要有两种技术:一是基于链接分析的检索,主要应用于数字图书馆系统
7、;二是基于内容的搜索,这类搜索方式是传统的信息检索技术的延伸。其中第二种技术主要是注重网页内容相关性,目标是向用户返回与查询的内容最相关的网页。这其中主要有两方面的问题:一是如何尽可能多地收集到最相关网页,但由于此类方法过分注重内容,只收集到局部范围内的网页;二是在对收集回来的网页进行检索时,其实用户在查询时除关注内容相关性之外,还关注网页中的其它属性,如:时间、空间。而目前的主题搜索引擎在这方面的研究还缺乏系统性和延续性,还第l章绪论没有提出相关的模型和理论基础。本论文主要以基于时态信息的主题搜索引擎为研究目标,首先对其进行架构设计;然后结合Web的结构和网页
8、的特征,埘负责收集网贞的
此文档下载收益归作者所有