面向web电子产品信息分布式检索系统的设计与实现

面向web电子产品信息分布式检索系统的设计与实现

ID:28401324

大小:53.50 KB

页数:3页

时间:2018-12-09

面向web电子产品信息分布式检索系统的设计与实现_第1页
面向web电子产品信息分布式检索系统的设计与实现_第2页
面向web电子产品信息分布式检索系统的设计与实现_第3页
资源描述:

《面向web电子产品信息分布式检索系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向Web电子产品信息分布式检索系统的设计与实现o引言互联网上的信息量呈爆炸性的趋势增长,出现了极为丰富的数据资源,使互联网变成了一个巨大的、分布广泛的全球性信息服务中心,涉及微博、新闻、电子商务、视频、音乐、新闻、教育、健康等诸多领域[1]。其主要挑战包括如下几点:1)互联网上的大部分商业网站以非结构化或者半结构化的形式展现,其中以超文本标记语言(HyperTextMarkupLanguage,HTML)展现形式居多,缺乏语义特征,很难精确、稳定、高效地从中提取出信息。2)商业信息的海量性,必然需要一个能够高效快速地抓

2、取商业信息的应用系统。3)随着搜索引擎的不断发展,人们对信息的检索速度、精确度等提出了更高的要求。4)商业信息的海量性,必然导致分布式存储系统的产生,即如何在分布式存储系统的基础上执行高效的分布式计算已成为一大重要挑战。因此,如何有效地集成Web数据,为中小型企业提供完善的市场情报分析支持,为用户提供更简便的商品信息浏览体验,具有极其重大的现实意义。而信息融合系统作为目前软件演化的重要技术,为应对这一挑战提供了一条可行之路。信息融合系统主要参照垂直搜索引擎的体系结构,基于Web数据挖掘技术,完成互联网上各类信息提取与融合

3、。目前,在信息融合系统中,Web信息检索技术最为复杂。文献[2]设计并实现分布式海量结构化数据存储检索系统。该系统采用列存储结构,采用集中分布式B+Tree索引和局部索引相结合的方法提高检索效率。在此基础上讨论复杂查询条件的任务分解机制,支持大数据的多属性检索、模糊检索以及统计分析等查询功能;然而,作者未就如何对查询结果进行规范化输出以满足用户需求进行讨论。文献[3]提出了一个基于内容及相似搜索的对等音乐文件共享系统。该系统利用了集合对等点来完成音乐文件的元数据的注册和搜索,把音乐文件的属性名-属性值对(Attribut

4、eValuePair,AVPair)通过音乐文件描述说明(MusicFileDescription,MFD)来表示,使系统可以支持精确的检索;但是该方法需要花费大量时间建立目标属性名-属性值之间的索引关系。文献[4]提出了一种基于Solr的分布式实时搜索模型,分析了其实现原理。模型通过内存索引与磁盘索引相结合保证索引信息的实时展示,同时引入CommitLog日志保证内存索引数据容灾,并通过主从模型Master/Slave保证搜索服务的可用性。该方法实现具有较好的可行性,能解决目前中小企业内部的搜索引擎系统的需求。文献[5

5、]提出了一种网格环境中基于本体的信息检索体系模型。利用Globus和0GSADAI工具进行计算资源和数据资源的管理,整合了闲置资源,提高了资源利用率,同时,将数据访问服务化,统一了接口访问类型;但是该方法需要进行一步研究如何动态更新本体信息,且统一接口访问类型实现起来比较复杂。在分布式检索技术实际应用过程中:一方面随着被索引文件的增多,建立索引时间呈线性增长;另一方面在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。基于此,本文结合Hadoop和Lucene技术,实现了面向电子产品领域的分布式检索系统

6、。同时,深入研究分布式基础架构Hadoop技术,提出了部分细粒度的改进,降低了系统建立索引的时间。本文实验表明基于Hadoop和Lucene的分布式检索具有较高的检索性能。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。