欢迎来到天天文库
浏览记录
ID:32032405
大小:7.45 MB
页数:57页
时间:2019-01-30
《【硕士论文】基于位置的网络搜索引擎排序技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、河海大学硕士研究生毕业论文基于位置的网络搜索引擎排序技术研究摘要万维网是一个包含丰富资源的数据库,如何有效地从其中获取所需信息是网络数据挖掘的一个关键问题。从1990年丌始,搜索引擎逐渐发展称为人们在互联网上搜索资源的主要方式。传统搜索引擎的工作机制基于关键字匹配,它们通常利用网页文本的内容和网络链接结构来判断网页与搜索串的相似程度。但随着越来越多的地方性资源和服务出现在因特网上,传统搜索引擎无法合理地处理包含位置信息的搜索串和返回令人满意的结果,其原因在于以下三点:(1)将地理位置当作普通关键字进行处理;(2)考虑的是网页在全球范围的受欢迎程度而不是在地方的流行度;(3)没有考虑网络资源的
2、地理范围。因此,建立专门处理包含地理位置信息的搜索引擎是必需的。本文在分析了基于位置的搜索引擎发展现状和相关关键技术的基础上,对基于位置的排序技术进行了研究。本文的主要研究内容和贡献有以下几个方面:1.提出了一种基于地方流行度的排序思想和相应的排序模型LPRM。该排序模型使用了Geo—weight来计算网页中地理位置的权重,它的特点在于综合考虑了地理位置出现的次数、频率和区域;同时本文改进了Power和Spread公式,以突出入链在排序中的重要性。2.根据提出的排序模型,本文给出了三种排序算法CGR、BGR和HGR。CGR仅仅考虑了网页内容中出现的地理位置,BGR仅仅考虑了入链网页中出现的地
3、理位置,HGR综合考虑了内容和入链中出现的地理位置。通过它们之间的对比可以看出入链的地理位置和质量能反映网页的地方流行度。3.设计和实现了一个基于位置的排序系统GRS,通过实验对提出的三种算法进行了评估,并详细地分析了实验结果。GRS有两个特点:(1)与大多数相关研究采用某一特定领域的网页作为数据集不同的是,GRS并没有对网页的内容做出任何限制;(2)大多数相关研究都需要部分手动参与,而GRS会自动地将地理位置与网页和超链接相关联,计算出一个网页的地理范围。实验主要评估和分析了以下几个方面:地理标注结果、排序结果的精确度、根集合大小对排序的影响、搜索串扩展效果。关键词:网络搜索、排序、基于位
4、置的搜索引擎河海大学硕十研究生毕业论文基于位置的网络搜索引擎排序技术研究第一章绪论1.1研究背景从1990年丌始,搜索引擎逐渐发展成人们在互联网上搜索资源的主要方式,大多数搜索引擎通过基于关键字(Keyword-based)的搜索方式来获取相关网页。据估计每天大约有上亿条搜索串被提交给搜索引擎进行处理。以Google为例,SullivaIl在2006年的调查显示Google每天大约需要处理超过9100万次搜索【lJ。对用户来说搜索引擎最大的两个特点就是高召回率和低精确性。虽然搜索引擎能够覆盖相当大一部分网络资源,但却缺乏有效的手段来对结果进行排序并呈现在用户面前。搜索串通常并不会很长,根据S
5、pinl(&Jansen在2004年所做的调查平均长度只有2.4个单词【2】,但搜索引擎却返回了过多的结果。工业界和学术界都提出了许多不同的索引和排序模型,试图只找出最相关的文档并以恰当的方式排序,但结果仍然不尽如人意。根据SullivaJl在2000年的报告,44%的用户觉得搜索结果并不理想。显然我们需要改进现有的技术来更有效地索引和表现网络资源13J。此外,对于搜索引擎的用户来说,不同的人也有着不同的兴趣和需要。这些需要可能包括商业、娱乐、科学或交流等方面。因此,在网络上开始出现一些专用的搜索引擎,它们通常被用来搜索特定的网络资源,比如图片、音乐和电影等。基于位置的搜索引擎(也称作地理搜
6、索引擎)就是一种专用搜索引擎,近来已经受到了学术界和工业界的广泛关注。从本质上,互联网发展并开始流行就是因为它能够跨越地域的限制获取资源。但是网络上的许多服务和设施都涉及到具体的位置,比如人们可以从网络上搜索位于特定区域的饭店、宾馆和公共设施等。通过基于位置的搜索引擎,用户得到的结果都是与地理位置相关并按照地理位置来排序的。然而对于一般的搜索引擎来说,其基于关键字的检索方式在面对与位置相关的搜索时表现得十分不尽如人意。举例来说,对于“南京宾馆”这样一个搜索串,我们的目的是找到位于南京市的宾馆,但我们却有可能得到一些不相关的结果,比如上海市南京西路上的宾馆,其原因有多个方面:比如搜索引擎并没有
7、考虑到网络资源的地理范围等。因此,面对与位置相关的搜R索,建立专门的地理搜索引擎是必须的。1.2研究动机与现状根据包括Sallderson&Kohle∥和Spink&Jallsen‘51在内的多项研究显示,在搜索引擎上执行的搜索串中有超过20%包含地理空间信息并且涉及地球上一个具体的位置。同时,包括移动搜索、GPS导航等新一代的基于网络的服务都致力于将数字信河海大学硕士研究生毕业论文基于位置的网络搜索引擎排序
此文档下载收益归作者所有