欢迎来到天天文库
浏览记录
ID:14618295
大小:36.00 KB
页数:14页
时间:2018-07-29
《web垂直搜索引擎实现过程的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Web垂直搜索引擎实现过程的研究 从2000年开始,Web垂直搜索引擎开始赢得用户的亲睐[1?2]。视频、音乐、图片、软件、贴吧、地图分门别类展开搜索,专业性更强,主题相关性更高。然而Web垂直搜索引擎的应用主题并不局限,拥有非常广阔的发展空间,例如面对电子商务的商品搜索,数码产品信息搜索以及近年开始出现的微博搜索。垂直搜索的出现主要有两个方面的原因:一是通用搜索引擎索引Web的全部内容变得越来越难,而垂直搜索引擎索引数据量较小且专业,投入成本也相对较低;二是垂直搜索引擎提供的搜索质量较高,因为它可以搜索到通用搜索引擎不能搜寻到的页面,而且在可搜索页面上提供更强有力
2、的搜索功能。垂直搜索引擎与通用搜索引擎的最大区别在于对网页信息进行结构化信息抽取,即将网页的非结构化数据提取成特定的结构化数据。构建一个垂直搜索引擎主要有两种方法:一种方法是通过爬虫爬取某种主题网页而构建专业索引;另一种方法是为用户提供专业化搜索的接口。Web垂直搜索引擎实现过程的研究 从2000年开始,Web垂直搜索引擎开始赢得用户的亲睐[1?2]。视频、音乐、图片、软件、贴吧、地图分门别类展开搜索,专业性更强,主题相关性更高。然而Web垂直搜索引擎的应用主题并不局限,拥有非常广阔的发展空间,例如面对电子商务的商品搜索,数码产品信息搜索以及近年开始出现的微博搜索。
3、垂直搜索的出现主要有两个方面的原因:一是通用搜索引擎索引Web的全部内容变得越来越难,而垂直搜索引擎索引数据量较小且专业,投入成本也相对较低;二是垂直搜索引擎提供的搜索质量较高,因为它可以搜索到通用搜索引擎不能搜寻到的页面,而且在可搜索页面上提供更强有力的搜索功能。垂直搜索引擎与通用搜索引擎的最大区别在于对网页信息进行结构化信息抽取,即将网页的非结构化数据提取成特定的结构化数据。构建一个垂直搜索引擎主要有两种方法:一种方法是通过爬虫爬取某种主题网页而构建专业索引;另一种方法是为用户提供专业化搜索的接口。 Web搜索引擎是种复杂、多组件信息检索系统的具体应用[3],也
4、因其应用在拥有超大规模数据的互联网中,使构建Web搜索引擎变得比较困难。已有众多的研究者参与到Web搜索引擎的研究中,Brin和Page发表论文首次公开大规模Web搜索引擎Google的设计原型[4],提出Web搜索引擎的基本组件包括爬虫、索引组件、搜索组件、排序系统以及反馈组件。高效Web垂直搜索的关键之一在于爬虫能否精确爬取主题相关的Web文档,Soumen等人提出聚焦爬虫[5],利用一种能够评估网页是否与主题相关的分类器选择性地爬取与预定义主题相关的页面,实现了以目标为导向的爬取。文献[6]开发了一种潜语义索引分类器,将链接分析和文本内容结合起来,目的是抓取指定
5、主题域的Web文档。文献[7]设计并实现了一种基于网格架构的大型Web搜索引擎,讨论实现流程和细节,对Web垂直搜索引擎的研究提供了宝贵的经验。信息检索领域的研究联盟成果对Web搜索引擎有着较高的参照价值,特别是检索模型的研究更加重要,Web搜索引擎的排序组件好坏很大程度上决定了用户体验。信息检索模型得到了飞速发展,传统的检索模型包括布尔模型、向量空间模型、概率模型、语言模型。现代检索模型的建立大多通过排序学习方法得到,即利用机器学习技术在数据集上自动创建排序模型[8]。这些研究成果很多通过开源软件实现,这些工具不仅为开发软件提供先进的技术支持,而且大大缩短了开发周期
6、。本文提出了一种Web垂直搜索引擎的实现过程,以该过程为基础开发了一个查询与手机相关信息的Web垂直搜索引擎,并且对实现原理和细节进行了详细的阐述。此垂直搜索引擎可以为搜索手机相关信息的用户提供直观的、快捷的、有效的手机信息搜索服务,验证了这种实现过程的有效性和完整性。 1Web垂直搜索引擎的实现过程 Web垂直搜索引擎与通用搜索引擎原理类似,都需要从互联网上下载网页、建立索引,响应用户查询。但是垂直搜索引擎可以返回结构化的数据,这些数据经过人工分析与整理再存入数据库中。本文将Web垂直搜索引擎的实现过程分为3层,分别为:数据准备层、提供查询服务层、前台交互层。这
7、3层可互相独立开发,最终整合到一起形成一套完整的Web垂直搜索引擎。图1为一种Web垂直垂直搜索引擎实现过程。 数据准备层 数据准备层的目的是准备用于检索的数据,这些数据最终存放在关系数据库中并建立倒排索引。Web垂直搜索引擎的目的是为用户提供更专业、主题性更强的搜索服务,这种服务与大量主题相关的数据为基础,数据处理分为两个阶段,第一个阶段为采集原始数据,原始数据来自互联网某些主题性较强的、数据来源可靠的网站。原始数据大多是未经处理的无结构网页,这些原始网页无法支持搜索服务并返回给用户查看。第二阶段为数据分析与处理,将原始无结构网页中的数据转换为
此文档下载收益归作者所有