web垂直搜索引擎实现过程的研究

ID：25988883

大小：58.00 KB

页数：9页

时间：2018-11-24

资源描述：

《web垂直搜索引擎实现过程的研究》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、Web垂直搜索引擎实现过程的研究Web垂直搜索引擎实现过程的研究从2000年开始，Web垂直搜索引擎开始赢得用户的亲睐[1?2]。视频、音乐、图片、软件、贴吧、地图分门别类展开搜索，专业性更强，主题相关性更高。然而Web垂直搜索引擎的应用主题并不局限，拥有非常广阔的发展空间，例如面对电子商务的商品搜索，数码产品信息搜索以及近年开始出现的微博搜索。垂直搜索的出现主要有两个方面的原因：一是通用搜索引擎索引Web的全部内容变得越来越难，而垂直搜索引擎索引数据量较小且专业，投入成本也相对较低；二是垂直搜索引擎提供的搜索质量较高，因为它

2、可以搜索到通用搜索引擎不能搜寻到的页面，而且在可搜索页面上提供更强有力的搜索功能。垂直搜索引擎与通用搜索引擎的最大区别在于对网页信息进行结构化信息抽取，即将网页的非结构化数据提取成特定的结构化数据。构建一个垂直搜索引擎主要有两种方法：一种方法是通过爬虫爬取某种主题网页而构建专业索引；另一种方法是为用户提供专业化搜索的接口。　　Web搜索引擎是种复杂、多组件信息检索系统的具体应用[3]，也因其应用在拥有超大规模数据的互联网中，使构建Web搜索引擎变得比较困难。已有众多的研究者参与到Web搜索引擎的研究中，Brin和Page发表论

3、文首次公开大规模Web搜索引擎Google的设计原型[4]，提出Web搜索引擎的基本组件包括爬虫（Craen等人提出聚焦爬虫[5]（FocusedCra.收集整理成果对Web搜索引擎有着较高的参照价值，特别是检索模型的研究更加重要，Web搜索引擎的排序组件好坏很大程度上决定了用户体验。信息检索模型得到了飞速发展，传统的检索模型包括布尔模型、向量空间模型、概率模型、语言模型。现代检索模型的建立大多通过排序学习方法得到，即利用机器学习技术在数据集上自动创建排序模型[8]。这些研究成果很多通过开源软件实现，这些工具不仅为开发软件提供

4、先进的技术支持，而且大大缩短了开发周期。本文提出了一种将提示列表展示在搜索框下面。查询结果显示数据要直接，例如查询数码产品的结果中，产品图片和参数直接显示在页面上，技术上同样是利用Ajax技术减少延时来增加用户体验。　　2obile/list.shtml　　（2）网站和网页内容分析。通过查看一级URL页面源码，并且分析网站URL链接规律，得出手机信息数据所在的URL地址规格，如下所示：手机信息：mobile/品牌/编号.html。　　手机图片：images/product/编号　　确定URL规格的目的是为了确定抓取哪些URL规

5、格的页面。获取所有手机品牌的URL链接后将这些链接作为种子，送给爬虫抓取。　　（3）定向抓取网页。爬虫的输入是待抓取URL种子链接，而爬虫抓取的结果就是将预定抓取的HTML和图片等资源下载到本地磁盘。本次开发使用开源爬虫框架Heritrix[9]，它是一个开源的Java爬虫框架，它保留了各种各样的配置接口用于定制和扩展爬虫的功能，为了能够准确抓取目标资源，从官方文档中了解Heritrix本身运行机制并进行配置和定制。　　（4）分析并抽取网页内容到本地抓取到的原始网页和图片不能被直接利用，需要将网页中的有用数据抽取出来并以一定的

6、格式保存起来，这个过程可以称之为结构化数据提取。每一个有效的HTML文件都对应一个txt文件，txt文件的内容和文件名称都有固定的结构。本次开发中将文件名规范为这样的格式：手机名?型号?时间字符串.txt。txt文件的内容格式如下：　　原始网页URL　　品牌名（如华为）　　价格　　属性名1：值1（如操作系统：android2.2）　　============================　　产品图片编码后的文件名　　结构化提取包含3个过程：一个是文件的I/O操作，此操作可以使用Java.io包实现；另一个是从HTML网页中提

7、取数据，此操作可以使用开源解析软件实现；第三个过程是对图片进行转存处理，这个过程的目的是将手机信息和图片名称进行映射，新图片名将原图片名经过MD5编码后得到。HTML元素之间是以分层嵌套的结构组织在一起的，HTML文档的这种结构称为HTML文档树。本次开发中使用开源HTML解析库HtmlParser[10]，使用这个库可以方便快速地从HTML网页中提取标签节点，文本节点和和属性节点的值。同样，在开发过程中使用该解析包需要了解其API和调用机制，这些内容来源于官方文档。　　（5）存入数据库并建立索引。磁盘中的数据文件是结构化数据

8、，但是仍然不能直接作为查询的直接数据源，其原因在于磁盘I/O速度较慢。故而将这些文件的信息存入关系数据库中，数据库表的字段对应文件内容结构的字段，每一个文件的数据都对应表的一条记录。在查询数据库时按照产品的主关键字（如ID号）查询，查询效率较高。但是用户的查询是若干关键词，实

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 9



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

web垂直搜索引擎实现过程的研究

web垂直搜索引擎实现过程的研究

相关文章

相关标签