欢迎来到天天文库
浏览记录
ID:21473314
大小:2.18 MB
页数:53页
时间:2018-10-22
《搜索引擎的相关性排序算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第1章绪论当前搜索引擎返回的查询结果与用户需求的相关程度并不理想。根据中国互联网络信息中心调查报告,中国搜索引擎用户不满意因素及比例如表1.1。因此需要研究搜索引擎中的相关性排序算法,将与用户需求相关度高的网页排在前面。表1.1中国搜索引擎用户不满意因素及比例不满意因素所占比例 搜索结果重复50% 搜索结果排序欠佳43% 搜索结果杂乱37% 搜索结果不合适36% 广告太多35%另外,在普遍的关键词检索系统中用户一般只是键入少数几个词语。Spink等对搜索引擎的近300位用户调查,发现人均输入的检索词为3.34个。国内部分学者也发现90%左右的用户输入的中文检索单字为2~6个,而且2
2、字词居多,约占58%,其次为4字词(约占18%)和3字词(约占14%)。然而检索词所提供的用户需求信息是很重要的,过少的检索词事实上无法真正表达用户的检索需求,而且很多用户从不使用高级检索功能,据不完全统计约40%的用户不能正确运用字段检索或二次检索,80%左右的用户不能正确运用高级检索功能,但他们都希望搜索引擎将最想要的结果尽可能地放到查询结果的前面。因此研究搜索引擎的相关性排序算法,提高用户满意度已经成为搜索引擎系统的紧要任务。1.2相关性排序研究意义中国互联网络信息中心调查报告指出,有82.5%的网民经常使用搜索引擎,83.4%的用户通过搜索引擎得知新网站。可见,搜索引擎在大
3、家日常的网络生活中发挥了重要作用。一个优秀的搜索引擎能从巨量的、形如垃圾的信息中发现真正的知识,通过对信息的甄别、加工、提纯,带来信息价值的提升。然而由于当今搜索引擎相关性排序算法并不完善,用户通常需要从大量的返回结果中手工挑选相关网页,搜索引擎的导航功能没有发挥明显优势。在搜索引擎发展的初期,搜索结果的排列只是根据搜索引擎在数据库中找到匹配网页的先后次序,不保证排在前面的网页与用户查询的相关性更大,因此不能帮助用户从过载的海量信息中快速地选取真正相关的信息。目前搜索引擎访问的网页数量已达到上十亿的规模,通常搜索结果包含成千上万的网页,即便这些网页都是用户所需要的,用户也不可能浏览
4、所有的网页。如何将更相关的网页排在前面,减少用户浏览网页的数目,帮助其快速找到需要的信息,是一项很有意义且富有挑战2第1章绪论性的工作。iProspect(美国最早的搜索引擎营销专业服务商)对1649名搜索引擎用户使用习惯进行调查,发现81.7%的用户不会浏览三页之后的搜索结果,而52.2%的用户只会关注第一页搜索结果。也就是说,用户通常只关心搜索引擎返回的排在前面的文档。因此研究搜索引擎的相关性排序算法,将用户期望的结果排列在前面,显得越来越重要。综上,搜索引擎返回结果中排在前面的网页对用户了解信息,学习知识有重要的帮助,搜索结果与查询需求的相关性是衡量搜索引擎性能的重要指标,因
5、此对搜索引擎相关性排序的研究有着十分重要的意义。1.3国内外研究和现状分析搜索引擎不仅需要返回检索结果,而且应该对这些结果进行再加工,判断哪些更符合用户搜索意图,将用户最感兴趣的文档排列在前面,方便用户在最短时间内找到需要的信息,提高搜索引擎的用户满意度。这便是搜索引擎的相关性原则,已被作为搜索引擎最基本原则之一。搜索引擎的相关性排序模型[1]包含布尔模型,向量空间模型,概率模型,超链接模型,自学习排序模型。布尔模型建立在经典集合论和布尔代数的基础上,根据文档中是否出现关键词来判断文档是否相关,所有相关文档与查询的相关程度都是一样的,所以不支持相关性排序。向量空间模型将文档和用户查
6、询分别转化为向量形式,计算两个向量的夹角余弦,并按照递减的顺序排列文档。概率模型通过估计文档与查询相关联的概率,根据关联概率对所有文档进行排序。超链接模型根据网页之间相互的超链接计算网页排名,从链接数目和链接页面的质量判断网页的级别。自学习排序模型将机器学习的方法运用到搜索引擎相关性排序问题,解决了以往模型的许多不足之处。它根据训练样本学习排序模型,再将排序模型预测与查询相关的文档排序。在这些模型的基础上,出现各种计算文档与查询相关性排序的算法。最初的搜索引擎相关性排序算法基于传统信息检索技术的方式,主要利用关键词本身在文档中的重要程度,对文档与用户查询的相关性做出评价,具有代表性
7、的算法主要是BM25[6]。它提出文档中关键词的“匹配/位置/频次”原则,就是说文档中的字词、词组或短语与用户输入的关键词越匹配,匹配的次数越多,则该文档的相关程度越高。同时,查询关键词如果出现在诸如标题等重要位置上,则比出现在正文的相关度要大,在搜索结果中排名也越靠前。3第1章绪论随着万维网的发展,Google提出超链分析技术[35],以网页被认可的重要程度作为相关性排序依据。由于网页间存在的各种超链接指向,相关性排序技术主要分析网页之间的引用关系。依据网页链接数目
此文档下载收益归作者所有