云时代的大数据.docx

云时代的大数据.docx

ID:58983324

大小:17.35 KB

页数:9页

时间:2020-10-27

云时代的大数据.docx_第1页
云时代的大数据.docx_第2页
云时代的大数据.docx_第3页
云时代的大数据.docx_第4页
云时代的大数据.docx_第5页
资源描述:

《云时代的大数据.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、简介本书以云计算为基石,从概念、研究、应用角度出发,系统地介绍了数据爆炸时代下的大数据。首先介绍了云计算及大数据的基础知识,让读者对云计算及大数据有概要认识;然后根据需要介绍了Hadoop软件下的MapReduce、HDFS及HBase这几个组件;接着全面、系统地介绍了云时代下的大数据,主要包括大数据的链接、聚类、项集、系统、相似项挖掘及数据量化等内容,让读者挖掘云时代大数据体系下的效益、价值及研究方向。序言几年之内,云计算已从新兴技术发展成为当今的热点技术。从2003年谷歌公开发布的核心文件到2006年AmazonEC2(亚马逊弹性计算云)的商业化应用,再到美国电信

2、巨头AT&T(美国电话电报公司)推出的SynapticHosting(动态托管)服务,云计算从节约成本的工具到盈利的推动器,从ISP(网络服务提供商)到电信企业,已经成功地从内置的IT系统演变成公共的服务。  随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系数据库中用于分析时会花费过多的时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百甚至数千台计算机分配工作。  “大数据”这个

3、术语最早期的引用可追溯到Apache的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFileSystem(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。  在当今的IT行业中都需要对数据进行分析,而数据分析都需要数据源,大数据尤甚。互联网公司通过搜索引擎、访问记录、App追踪等技术手段可以获得大量的用户浏览信息,但这些信息的收集、存储、提取、访问等环节都不可能向大众公开,相关数据的使用规则目前还缺乏法律规范。对普通人而言,获得公开、免费、准确的数据来源

4、似乎成为一种奢望,但企业和政府的数据公开的步伐已经迈出。各行各业都需要大数据,如医疗上的各种疾病数据,农业上的作物、天气、病虫害、土壤资料等数据,工业制造上的原材料、加工流程、设备信息、产品规格等数据,金融行业的客户资料、金融产品等数据,教育领域的学生、学校、教师、教材等数据,国防领域的卫星、海域等数据,环境保护中的空气污染物、水源质量分析等实时数据……不论政府、企业还是个人,对大数据的需求也涉及经济社会的各个方面。  互联网和移动互联网已经给电信、零售、媒体等行业带来了深刻变革,如果进入大数据时代,那么还有更多行业会迎接洗礼。目前智能制造、互联网金融、数字化诊疗已经

5、崭露头角。个人用户对大数据的需求可能带来数据接收方式的变化,各类智能终端将再次迎来发展机遇。除了功能越来越强大的智能手机之外,眼镜、汽车、手表,甚至自行车都有可能成为接收数据的新型智能终端。  根据云时代的大数据发展趋势,笔者编著了本教材,让读者认识到什么是云,什么是大数据,以及云与大数据的关系,在各企业领域中怎样应用云时代的大数据。本书主要内容有:  第1章:介绍了云时代概述,主要包括“云”基本介绍、云产生的背景、云计算特点及云计算的关键性技术等内容。  第2章:介绍了大数据概述,主要包括大数据基本概念、大数据的发展趋势、大数据的挑战、现状与展望及大数据行业应用和未

6、来热点等内容。  第3章:介绍了数据挖掘,主要包括数据挖掘的定义、起源、功能、实现方法、应用及哈希函数等内容。  第4章:介绍了数据量化,主要包括量化分析元素、量化质量分析规划及高级量化分析等内容。  第5章:介绍了大规模文件系统MapReduce,主要包括分布式文件系统、MapReduce模型、MapReduce使用算法及MapReduce实现机制等内容。  第6章:介绍了相似项挖掘,主要包括近邻搜索的应用、最小哈希及距离测试等内容。  第7章:介绍了HDFS存储海量数据,主要包括HDFS简介、HDFS存取机制及HDFS管理操作等内容。  第8章:介绍了HBase存

7、储百科数据,主要包括HBase基本特征、系统框架、HBase的基本接口及HBase数据模型等内容。  第9章:介绍了大数据链接分析,主要包括链接分析中的数据采集研究、PageRank及搜索引擎研究等内容。  第10章:介绍了聚类,主要包括聚类概述、聚类技术、层次聚类用CURE算法等内容。  第11章:介绍了项集与系统,主要包括项集规则、单调性、二元组计数及推荐模型系统等内容。  本书适用于云计算及大数据初、中、高级读者使用,也可作为研究大数据相关专业研究人员的参考资料。  由于时间仓促,加之作者水平有限,所以错误和疏漏之处在所难免。在此,诚恳地期望得

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。