亚信黄国甫-大数据技术V266.pdf

亚信黄国甫-大数据技术V266.pdf

ID:52740414

大小:2.27 MB

页数:66页

时间:2020-03-30

上传者:U-14520
亚信黄国甫-大数据技术V266.pdf_第1页
亚信黄国甫-大数据技术V266.pdf_第2页
亚信黄国甫-大数据技术V266.pdf_第3页
亚信黄国甫-大数据技术V266.pdf_第4页
亚信黄国甫-大数据技术V266.pdf_第5页
资源描述:

《亚信黄国甫-大数据技术V266.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

大数据技术海量数据的存储、计算、信息提取2014年03月 课程目标通过2个半小时的学习可以实现的是:无法实现的是:理解什么是大数据掌握M/R编程清楚大数据能做什么精通HQL知道什么是hadoop,什么是hive掌握机器学习技术掌握hadoop的基本操作掌握hive的基本操作了解什么是机器学习知道成为大数据专家需要学习哪些知识原因说明:m/r编程需要安装开发环境,需要自己动手写一个程序,一般需要一天以上的时间来完成入门,真正掌握,开发出有效率的代码则需要编程经验的积累;HQL涉及的方面很多,尤其是编写高效的语句非常需要日常积累;机器学习需要多学科的知识,尤其是基于大数据的机器学习更需要掌握编程技能 目录1大数据简介2大数据存储与计算3从数据中获取信息 大数据简介—大数据定义什么是大数据? 大数据简介—大数据定义麦肯锡:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。IDC(互联网数据中心):大数据技术是新一代的技术与架构,它被设计用于在成本可承受的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值。高德纳:大数据是大量、高速、多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理(velocity,volumes,variety,value); 大数据简介—大数据历史1944年,卫斯理大学图书管理员赖得认为到2040年美国大学的图书将超过20亿册1961年,普赖斯在《ScienceSinceBabylon》杂志发布文章认为新期刊的数量呈指数级增长1964年,哈里和亨利发表文章“应对信息爆炸的技术”,他们认为应该少发布信息1967年,马龙和曼尼发表文章“数据自动压缩”,通过压缩应对信息爆炸1981年,匈牙利中央统计办公室开始一个项目,研究国家的信息产业,包括信息量大小。1996年,毛里斯和查科斯基发表文章,认为数字存储比纸质存储更划算1997年,迈克尔.考克斯和大卫.埃尔斯沃思发表文章首次谈到大数据这个词2001年,倒戈.兰尼发表调查报告,首次谈到3v,velocity,volumes,variety2008RandalE.Bryant,RandyH.Katz,andEdwardD.Lazowska等人发表文章,认为大数据计算是商业、社会、科学等领域变革突破的动力…… 大数据简介—大数据发展趋势大数据为什么这么火?一些大数据的传说:大数据是未来世界的石油数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源大数据,是下一轮创新、竞争和生产力的前沿谁拥有了数据以及对数据的发掘能力,谁就将占领下一个十年全球经济发展的制高点 大数据简介—大数据发展趋势关键词“bigdata”关键词“大数据”话题:Hadoop、nosql故事、概念、未来2011、2012 大数据简介—大数据发展趋势技术成熟曲线尤其在新技术的炒作期,理解技术的真实价值才能在喧嚣与浮躁的氛围中不会迷失方向。大数据的价值观察:1、全球的数据爆炸式增长,不断增长的数据需要大数据技术来存储和计算;2、越来越多的实例证明,数据可以产生价值。 大数据存储与计算—要点hadoop简介hadoop安装map/reduce编程HIVE和HQL语法 Hadoop简介--原理由于力量的限制,一个人完不成的任务可以由多个人来完成。由于计算能力的限制,一台计算机完不成的任务也可以由多台计算机来完成。 Hadoop简介--存储网络 Hadoop简介--存储方式 Hadoop简介--硬件架构案例 Hadoop简介--核心功能 HADOOP安装Linux安装ssh(SecureShell)免密码登录配置Jdk安装(1.6以上版本)Hadoop安装 LINUX安装http://www.cnblogs.com/zhangchaoyang/arCYGWIN安装ticles/1874647.htmlVMWARE真实LINUX操作系统 ssh(SecureShell)免密码登录ssh-keygen-tdsa-P‘’(生成密钥对)namenodescp~/.ssh/id_dsa.pubroot@datanode1:~/.ssh/authorized_keys(公共密码拷贝到datanode机器中)/etc/ssh/sshd_config(修改sshd配置文件)datanodePubkeyAuthenticationyesAuthorizedKeysFile.ssh/authorized_keys(去掉注释)chmod0600~/.ssh/*(更改文件权限)cat/root/.ssh/id_rsa.pub>>/root/.ssh/authorized_keys(将namenode中的密钥加入身份认证列表)详细步骤:http://www.g-loaded.eu/2005/11/10/ssh-with-keys/ Hadoop安装1、复制文件hadoop2、配置变量java_home,path,hadoop_home3、配置文件:core-site.xml(定义namenode),hdfs-site.xml(定义副本数量),mapred-site.xml(jobtracker),master,slave;4、格式化namenode(bin/hadoopnamenode–format)5、启动进程start-all.sh6、测试参考网址:http://blog.csdn.net/inkfish/article/details/5150029 map/reduce编程—定义 map/reduce编程—处理流程 map/reduce编程--单一REDUCE map/reduce编程--多个REDUCE map/reduce编程--无REDUCE map/reduce编程--示例 map/reduce编程--示例 map/reduce编程--示例 map/reduce编程--示例 map/reduce编程--示例 map/reduce编程--示例 map/reduce编程--示例 上机演示查看hadoop进程jps查看集群中的存储http://10.175.50.170:50070/查看集群中的任务http://10.175.50.170:50030/操作hdfs上的文件hadoopfs-ls执行任务bin/hadoopjarhadoop-0.19.1-examples.jarwordcountll/*output6 HADOOP相关技术 Nosql、MPP•GBase8a(南大通用)•Hbase(大表实时操作)•Greenplum(EMC)•Bigtable(大数据,快速读)•Vertica(hp)•Cassandra(高性能,类sql)•AsterData(teradata)•Dynamo(快速读写)•SybaseIQ(sap)•Dremel(类sql,快速读)•F1/Spanner(google)•Neo4j(适用图形数据)Stado(开源)•Redis(快速读写)支持sql;不开源;不怎么支持sql;开源;列存储;并行计算;速度较慢键值存储;并行计算;速度较快 HIVE基本概念•Hive是一个基于Hadoop建立的数据仓库基础架构。•他提供了一种基于SQL的类SQL语言,叫HiveQL,支持熟悉SQL的用户方便地进行查询,存储和分析数据。同时,这个语言也允许熟悉Map/Reduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。 HIVE基本操作•基本操作-:使用where子句中的表的行进行过滤的能力。-:能够选择使用select子句中的表的某些列。-:能够做到同等的两个表之间的联接。-:表中存储的的数据通过“Groupby”子句进行聚合。-:能够将查询结果存储到另一个表中。-:表的内容可以下载到本地目录。 进入HIVE环境1、通过ssh协议登录10.175.50.170,可以通过secureCRT软件直接登录,也可以在unix或linux服务器中直接输入命令sshhadoop@10.175.50.170(密码请联系管理员获取)通过secureCRT登录中输入命令登录 进入HIVE环境2、输入命令:hive3、数据命令:showtables;(看到所有的数据表,加过滤:SHOWTABLES'page.*';) 创建数据表1、进入hive环境(参见上面的步骤)2、执行如下sql(列分隔符为|,和需要导入的数据格式有关)createtableZC_GBSSAP_CC_BDR(Start_timeTIMESTAMP,call_typeint,cdr_idint,discon_causeint,callingstring,calledstring,calling_imsistring,called_imsistring,calling_imeistring,called_imeistring,talk_timeint,start_lacint,start_ciint,end_lacint,end_ciint,sour_lacint,不同的版本支持的数据类型也不同,具体参见官网sour_ciint,dest_lacint,dest_ciint)rowformatdelimitedfieldsterminatedby'|'; 导入数据1、进入hive环境(参见上面的步骤)2、执行如下sql(注意列分隔符)LOADDATALOCALINPATH'/home/hadoop/lhscc2g_201312311415.txt'INTOTABLEZC_GBSSAP_CC_BDR;3、查看导入的情况输入语句selectcount(*)fromZC_GBSSAP_CC_BDR 导出结果1、进入hive环境(参见上面的步骤)2、执行如下sql(取前5行数据)INSERTOVERWRITELOCALDIRECTORY'/home/hadoop/output/ZC_GBSSAP_CC_BDR2'SELECT*fromZC_GBSSAP_CC_BDRlimit5; 多表复杂查询1、进入hive环境(参见上面的步骤)2、执行如下sql(取前5行数据)selecta.county_id,count(*)fromdim_pub_county_v15ajoindim_pub_centerbon(a.city_id=b.city_idanda.county_id=b.county_id)groupbya.county_id;另外:不支持in,exist不支持having语法,须增加子查询不支持update和delete操作,只支持覆盖的insert操作 从数据中获取信息—要点简介常见应用场景常见算法 从数据中获取信息 从数据中获取信息 从数据中获取信息—数据和信息的关系数据:记录事实信息:掩藏在数据下的规则、模式数据越来越多,其中可能含有价值;未经处理的数据是没有什么价值的。需要自动化技术,把数据转换成信息; 知识发现、数据挖掘、机器学习从各种媒体表示的信息中,根据不同的需求获得知识。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。也有的说法是,知识发现是数据挖掘的别名。数据挖掘的描述有很多,个人倾向于这个版本:一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。机器学习(MachineLearning,ML)专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。是人工智能的核心。已逐渐成为智能数据分析技术的创新源。 从数据中获取信息—所需步骤收集数据,定义学习目标数据准备(预处理)训练预测模型测试验证模型 从数据中获取信息—所需步骤 从数据中获取信息—所需步骤除去噪音文本转换成列表 从数据中获取信息—所需步骤训练模型 数据挖掘—常用工具ViscoverySOMinerSPSSClementineInsightfulMinerStatisticaDataMinerSAPNetWearDBMinerOracleDataMiningIBMIntelligentMinerKNIMESASEnterpriseMinerAffiniumModelWekaKnowledgeSTUDIOprudsysDiscoveryDataMiningSuiteTeradataWarehouseMinerRapidMinerKXENAnalyticFrameworkmahoutSQLServerAnalysisServices 数据挖掘—常用工具数据挖掘工具为什么没有普及? 数据挖掘—常用工具数据挖掘往往伴随复杂的数学公式 数据挖掘,发现数据价值需掌握跨越多学科的知识技能,使数据挖掘人才的培养变得曲折漫长 机器学习算法•不同的算法应用于不同的数据;•错用算法将导致机器学习变得毫无意义;•最佳的算法是根据数据特点来专门设计;•算法是大数据最核心的技术; 从数据中获取信息—应用场景分类集群协作筛选数字预测 应用场景-分类 应用场景—集群 应用场景—协作筛选(购物篮) 应用场景—协作筛选(购物篮) 从数据中获取信息—应用场景(个性推荐) 从数据中获取信息—应用场景(个性推荐) 大数据挖掘特点 推荐阅读与访问http://hadoop.apache.org/Hadoop官网http://korczak-leliwa.pl/?q=node/57数据挖掘的一些学习资料http://blog.csdn.net/godenlove007/article/d大量的机器学习资源链接etails/8899186

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭