基于heritrix和sphinx的购物比较搜索引擎研究

基于heritrix和sphinx的购物比较搜索引擎研究

ID:27487526

大小:49.50 KB

页数:4页

时间:2018-12-04

基于heritrix和sphinx的购物比较搜索引擎研究_第1页
基于heritrix和sphinx的购物比较搜索引擎研究_第2页
基于heritrix和sphinx的购物比较搜索引擎研究_第3页
基于heritrix和sphinx的购物比较搜索引擎研究_第4页
资源描述:

《基于heritrix和sphinx的购物比较搜索引擎研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Heritrix和Sphinx的购物比较搜索引擎研究基于Heritrix和Sphinx的购物比较搜索引擎研究随着网络商品的极大丰富和分类的细化,搜索引擎已成为购物信息的重要来源。比较购物搜索引擎是一种基于专业化的垂直搜索引擎,通过对电子商务网站或者部分实体店的商品信息进行采集和整理,向消费者提供特定准确的商品信息及相关辅助设施,减少信息不对称,优化购买决策;同时,帮助商家降低推广成本获得针对性极高的目标用户,是未来网络购物搜索的发展趋势。然而,目前国内的比较购物引擎普遍追求大而全,在细化用户需求和购物体验

2、上较为欠缺。商品信息比较偏重价格方面,对影响购物体验的其他因素,诸如商家信誉、折扣降价、用户评价、退换条款等较少涉及。本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎,将国内大型B2C网站作为爬取信息来源,运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页,以期更好的细分消费者人群,有针对性地满足用户体验。  一、Heritrix和Sphinx技术特点  1.1Heritrix工作原理  Heritrix是一款基于java语言开发的开源网络爬虫,用于对网上的资源进行归档,建立网络

3、数字图书馆,目前已经建立了400TB的数据。  Heritrix爬虫每次只对一张网页的内容深度复制,包括获取图像以及其它非文本内容,抓取并存储相关的内容。具体筛爬过程中,爬虫先从队列中取出下一个URL,通过HTTP协议将对应的网页爬取下来,然后解析内容,并且提取出包含的URL,将其中新发现的URL追加到队列中。最后将网页存放到本地磁盘的网页库中。爬取过程在积累到一定数量网页时即可终止,或者在队列为空的时候终止。  1.2Sphinx工作原理  Sphinx是一个基于SQL的全文检索引擎,本系统所采用的是基于S

4、phinx研发并独立发布的Coreseek,是一款专攻中文搜索和信息处理的中文全文检索/搜索软件,它适用于行业/垂直搜索、论坛/站内搜索、数据库搜索本文由.L.收集整理、文档/2.3.1商品信息提取判别  提取产品的信息包括商品名称、市场价、最高价、促销价、促销描述、销量描述、评价、URL、店铺、类别、属性,其中对ISBN或ISRC、品牌和型号属性要特殊处理,由于不同商家在添加商品信息时可能会有文字上的差异,提取时要结合Sphinx建立的全文搜索引擎仔细设计匹配规则。如果商品属性中有ISBN,则可以肯定是图书

5、,如果有ISRC字样,则肯定为唱片。这两种编写都具有全球唯一性,因此可以设定商品表中的is_unique字段为真,判断时以此编号为准。  在没有全球唯一编号的情况下,大部分商品可通过品牌+型号的方式来判断是否为同一商品。其中型号可能有别名,如货号等。其余情况,以商品名字来判断,由于不同商家会往商品名称里加入很多其他信息,通过名字来判断同一商品可靠性较低。  2.3.2商品信息更新流程  商品信息更新分为店铺信息更新和类别更新两个部分。店铺更新是在商品添加成功以后来处理的,一般每个商品都会有默认Context(

6、购物网站),个别商品可通过网页找到对应店家,此时就适用更新店铺流程,更新店铺最终是为了让此次采集时的上下文环境更加明确,以便将来对采集数据进行分类处理。类别更新针对部分能从商品信息页面中获取的网站而言,为可选功能。  三、模型构建实践  本文基于Heritrix和Sphinx技术搭建的购物搜索引擎在实践中把淘宝网、天猫网、卓越亚马逊、当当网作为重点爬取对象,能实现针对这些主要购物网一般商品的搜索。搜索结果页面如图2所示。商品比较结果页面如图3所示。  四、总结  本系统通过Linux系统的脚本管理技术,将He

7、ritrix网络爬虫技术、Sphinx的分词和全文索引的功能相结合,整合成一个能筛爬国内主流大型购物网站的比较购物搜索引擎。本系统还可以进一步进行完善,如可以对搜索关键字进行按照行为预先分类,帮助缺少计算机基础的用户搜索互联网内容,进一步修订商品信息数据存储表,以更好的兼容越来越多的业务细分类型购物网站,这些都是下一步的发展方向。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。