基于云计算的大数据信息检索技术

基于云计算的大数据信息检索技术

ID:28074751

大小:18.48 KB

页数:5页

时间:2018-12-08

基于云计算的大数据信息检索技术_第1页
基于云计算的大数据信息检索技术_第2页
基于云计算的大数据信息检索技术_第3页
基于云计算的大数据信息检索技术_第4页
基于云计算的大数据信息检索技术_第5页
资源描述:

《基于云计算的大数据信息检索技术》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于云计算的大数据信息检索技术  摘要伴随着云端数据日益膨胀,想要从大量的数据当中快速寻找想要的�稻菔欠浅@�难的,这也成为了当前亟待解决的重要课题。目前,数据检索技术已经阻碍了云计算进一步的发展。本文系统阐述了云计算的概念以及大数据存储特征,介绍了Web信息收集与检索,并从检索请求分析以及匹配检索请求两个方面研究了检索的过程。  【关键词】云计算大数据检索技术  在当前信息技术快速发展的时

2、期,云计算已经成为了政界、学术界、互联网企业等关注的焦点。云计算主要是利用互联网平台,通过大量的计算与存储资源将互联网有机连接在一起,从而形成虚拟IT资源池,根据用户需求提供相应的服务。在IT产业界当中,云计算被看做是网络时代又出现的一个新的产业增长点,具备较高的市场发展前景。云计算理念与当前低碳经济以及绿色计算趋势相吻合,并且具有发展为未来网络神经系统的潜力。云计算已经在信息领域引领了空前的工业革命,带动了传统电信行业、互联网行业乃至社会产业的重要变革。  1云计算下大数据信息检索技术概述  云计算定义为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不

3、仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  云计算有着很多种不同的定义,其中被普遍接受的一种是由NIST在XX年提出的,它认为云计算是一类利用网络,利用便捷方式从包括服务器、网络、应用、存储以及服务在内的共享计算机资源池中获得服务的业务形式,云计算业务资源在简洁的交互以及管理过程中得以快速的释放与部署。  大

4、数据存储特征  云计算的产生催生了大数据。大数据主要是指大量的结构化以及半结构化数据。其具备面积大、多样化、价值密度低、快速处理能力等四方面特征。这些特征表明了针对大数据所采取的检索方式不能等同于传统方式。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。 

5、 假如使用传统关系数据库实现数据的保存,那么不仅耗费时间同时也耗费金钱,实现起来比较困难。超过一半以上的大数据属于非结构化数据,他们是通过文件的方式进行储存的。现在,大数据主要存储在集群文件系统当中。该系统的核心在于:一个大数据文件被分成了很多部分。块数据主要储存在块服务器当中,每一个块都会存在相应的元数据,而元数据则保存在主服务器当中。元数据的保存类型包括了文件与块命名空间、每个块数据备份位置、块的映射文件。其中,命名空间的元数据主要被用作维护文件系统命名空间,在命名空间当中就能够查到相应的文件以及目录路径,该路径会对应想要查询的内容。此外,还有一种元数据主要记录

6、文件位置,通过查询相应的信息,就能够获取数据位置偏移量。因为某些文本信息因为是非直接描述的,所以经常出现误用的情况,这也是很多企业比如谷歌非常重视元数据准确描述的原因所在。  2Web信息收集和检索  信息价值密度与总量呈现出反比的关系,在数以亿计的信息当中,可以满足用户需要的通常只有区区几页。云计算本身的计算能力较强,能够充分使用云数据获取最终的处理结果。如何保证云计算能够从大量的数据当中获得客户想要的信息是现在急切需要解决的重要问题。从信息检索层面看,百度以及谷歌等公司依然处在领先地位。  信息检索过程中会对各个服务器进行分析,并排序数据信息,相似度相对较高的服

7、务器通常会在前列,与此同时,对于服务器当中所存储的数据展开全面的分布式检索,最终检索结果会保存在IndexRepository当中,而网页通常保存在搜索引擎当中,用户一旦提出了搜索请求,通常都会在IndexRepository当中完成信息检索工作的,并按照PageRank方法对倒序索引展开计算工作,这些内容最终都被放在了索引存储器中。与此同时,页面标题以及所涉及的数据信息会被放在相对应的索引内容下,方便使用广度优先的方法对其展开搜索,相应的,网页的内容则会被置于另一个索引当中,方便使用深度优先的方法展开搜索工作。为了充分发挥“教学点数字教育资源全覆盖”项目设备的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。