大数据考点总结

大数据考点总结

ID:47442767

大小:68.71 KB

页数:4页

时间:2020-01-11

大数据考点总结_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《大数据考点总结》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、名词解释1.Hadoop:是一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduce。2.HDFS:是Hadoop的一个分布式文件系统,它的主要设计理念为存储超大文件,最高效的访问模式是一次写入、多次读取,运行在普通廉价的服务器上。3.Hbase:是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非

2、结构化和半结构化的松散数据。$hbaseshell4.Spark:AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序5.推荐系统:是自动联系用户和物品的一种工具,通过研究用户的兴趣偏好,进行个性化计算,帮助用户从海量信息中去发掘自己潜在的需求6.网络爬虫:又称为网络蜘蛛,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。7.大数据:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库能力范围的数据集合(1.数据量大2.数据类型多3.处理速

3、度快4价值密度低即Volume、Variety、Value、Velocity)8.物联网:物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制9.云计算:通过整合和管理分布在网络各处的计算资源,提供可伸缩的、廉价的分布式计算能力,通过互联网以统一界面,向大量的用户提供服务的一种模式10数据可视化:将大型集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程简答题1.h

4、adoop有哪些组件以及功能?答:主要组件有分布式文件系统HDFS,为海量数据提供存储;分布式并行编程模型Mapreduce为用户提供强大的计算能力。2.MapReduce的运行过程是什么样的?答:从分布式文件系统读入数据、执行Map任务输出中间结果、通过Shuffle阶段把中间结果分区排序整理后发送给Reduce任务、执行Reduce任务得到最终结果并写入分布式文件系统。(执行map函数把一组键值对按照相关的规则映射成一组新的键值对,并交由归约函数处理)3.Hbase的主要功能组件有哪些?答:(1)库函数:

5、链接到每个客户端(2)一个Master主服务器(3)许多个Region服务器4.Hbase与传统的数据库有什么区别?答(1)数据类型:关系数据库采用关系模型,HBase则采用了更加简单的数据模型(2)数据操作:关系数据库中包含了丰富的操作,HBase操作只有简单的插入、查询、删除、清空等(3)存储模式:关系数据库是基于行模式存储的,HBase是基于列存储的。(4)数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。HBase只有一个索引——行键(5)数据维护:在关系数据库中,更新操作

6、会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新操作时,并不会删除数据旧的版本(6)可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。而hbase正好相反。5.数据可视化思想及其作用?答:数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析作用:1)观测、跟踪数据2)分析数据3)辅助理解数据4)增强数据吸引力6.云

7、计算,物联网,大数据之间联系答:区别:大数据侧重于对海量数据的存储、处理和分析;云计算本质上通过网络以服务的方式将计算服务提供给用户;物联网的主要是实现物物相连。联系:云计算为大数据提供了技术基础,大数据为云计算提供了用武之地;物联网是大数据的重要来源,大数据也为物联网数据分析提供支撑;云计算为物联网提供海量的数据存储能力,物联网为云计算提供了广阔的应用空间。7.关系型数据库和非关系型数据库区别?答:(1)关系数据库:是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据优势:以完

8、善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等(2)NoSQL数据库:是建立在非关系模型基础上的数据集优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。