欢迎来到天天文库
浏览记录
ID:9289663
大小:22.77 KB
页数:9页
时间:2018-04-26
《一种基于模糊相似粗糙集的web搜索优化方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一种基于模糊相似粗糙集的WEB搜索优化方法摘要 如何对Web信息搜索进行优化,是信息检索的重要研究课题。本文基于模糊相似粗糙集,在语义结构和Web的超链接结构间建立起映射,从而提高Web搜索的速度和准确率。关键词 Web信息搜索;模糊分类;超链分析;模糊粗糙集;相似关系 1 引言Web作为信息制造、发布、加工与处理的主要平台,正以令人难以置信的速度在飞速发展着。如何在Web所提供的海驹量信息中发现有用的信息并加以有效利用螟,一直是人们努力研究的方向。搜索引擎尽是目前Web信息检索的主要工具。传统膻的搜索引擎大多是基于关键字匹配、目录⒀分类等技术,但在查询速
2、度与查准率、查全率等方面还具有较大的局限性。近几年郴的研究发现,分析Web网页间的超链接结构并充分利用,可以提高检索的质量。基于这种超链分析的思想,在1998年,SergerBrin和Lawren舁cePage提出了PageRank[肘1]算法。同年,提出了HITS[2]刎算法,还有其他一些研究者相继提出了一汶些改进算法,如SALSA、PHITS猫等,在实际应用中取得了良好的效果。为栈了进一步提高Web搜索的效率,我们提帼出了一种根据特定的需求,利用粗糙比较骟对Web信息的搜索路径进行优化的方法崴。首先对用户提交的反映用户需求的网页或关键字进行模糊分
3、类,得到对信息空间夔的相似分类,再对识别出来的网页集团的孥9/9超链接结构进行分析,用网页间作用力与【文本信息的混和相似度,得到网页集团在飘用户需求信息上的相似类划分。通过对各自所得到的基于相似关系的模糊粗糙集之蛮间相似程度的度量,找到与用户需求最接近的网页集团的排序表,从而达到对We敦b信息搜索的优化。本文首先回顾一些研伤究者在这一领域所做的一些相关工作;然ㄞ后在核心部分详细论述了基于相似关系模糊粗糙集的Web搜索优化策略;最后是疗我们的结论。2 相关工作J.kl︷EInberg等在文[3]中提出We褛b结构所呈现出来的自组织性,从而反映衷出Web
4、上的一些信息分布知识。他们认泡为,尽管Web是一个分散的信息网络,杈但从全局来看,互不关联的创建过程由于晋作者共同的偏好而使得信息源之间产生了缵愈来愈紧密的联系,即通过超链接内容相同或相关而自然地聚合在一起,形成一个哏个网页集团[4]。网页集团是指Web泓上一些网页所组成的集合,组成集合的成郭员网页指向集合内其他成员网页的超链接蛹数,远比其指向集合外非成员网页的超链甾接数多得多。从形式上看,集团内部链接妓密集,而集团间链接稀疏,甚至根本不链接。集团内部的高密度链接通常表明构成殷集团的成员网页具有一定的信息相关性。讽这一发现对于我们进行Web信息搜索的弋优化
5、具有很高的价值。PageRank算法和HITS算法是两种影响相当广泛擢的链接分析算法。其中,PageRan万k算法的基本出发点是试图为整个Web 上的所有网页赋予一个量化的表征权威度︳9/9的值,即通过迭代计算特征为每个网页分啡配PageRank值。由于所有处理过绶程是离线进行,因此不会为在线的查询过诉程付出额外的代价,但它最大的问题是没肓有对主题进行区分,因此,可能在返回结箭果中出现与主题无关的一些网页排在前面醌的情况。HITS算法模型中,提出了权荇威性网页和中心网页的概念。其中,权威羟性网页是被大量的超链接所指向的、包含恢高质量的主题内容的信息源。Hub
6、网页蔽是指向和主题相关的权威网页的一些不知腙名网页,提供对高质量主题内容存取的信息源。它们之间具有互相增强的关系:一冉个“好的”Hub网页应该指向很多“好茴的”权威性网页,一个“好的”权威性网页应该被很多“好的”Hub网页所指向碡,这样就需要通过一个迭代过程来计算每轭个网页的Authority值和Hub哮值。Kleinberg所提出的具体计霆算方法如下:用传统的基于关键字匹配的罂搜索引擎对用户提交的查询进行搜索,得班到满足条件的前n个网页组成的基集S,榻再通过加入S引用的网页和引用S的网页凶得到一个更大的集合T。对于集合T中的吕任何网页,用a(u)表示网页
7、u的Authority值,用h(v)表示网页むv的HubHITS算法是与特定查询主汀题相关的方式,因此在速度上有一定的优焚势,但也可能由于没有考虑链接的权重而究造成主题漂移现象,但经过改进的加权和修剪过滤等算法在一定程度上可以克服HITS算法的主题漂移问题。本文中所提耶出的Web搜索优化策略是在Web语义荐9/9结构和网页集团的拓扑结构之间建立起一奁种映射,也就是在网页集团的拓扑结构中Е加入了用户的信息需求,从而提高搜索的↑速度和质量。在计算集团内网页间相似度薰与衡量网页重要性的工作中,我们引用了蜈HITS算法中Authority和H亵ub的计算方法。另
8、外,对于如何在We贡b中自动识别网页集
此文档下载收益归作者所有