大数据分析教程.ppt

大数据分析教程.ppt

ID:55894277

大小:7.30 MB

页数:29页

时间:2020-06-13

大数据分析教程.ppt_第1页
大数据分析教程.ppt_第2页
大数据分析教程.ppt_第3页
大数据分析教程.ppt_第4页
大数据分析教程.ppt_第5页
资源描述:

《大数据分析教程.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、大数据竞赛培训之数据分析2018讲师:赵利平日期:2018年11月11日目录CONTENTS原理介绍1学习目标2前期准备3数据分析4原理介绍01原理介绍本次数据分析是采用Hive进行的,Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和r

2、educer来处理内建的mapper和reducer无法完成的复杂的分析工作。Hive的Sql语句HDFS解释为mapreduce学习目标02掌握将本地文件上传至hdfs指定路径技能掌握创建hive表,并将本地数据信息导入技能掌握创建表获取指定格式、指定信息技能掌握转化率计算等函数学习目标学习目标前期准备033.1hive基本操作进入hive安装目录cd/usr/hive/apache-hive-2.1.1-bin/启动hiveclient(master上)bin/hive查看数据库列表showdatabases;3.1

3、hive基本操作建数据库createdatabasehongya;//创建数据库hongyashowdatabases;//查看数据库,发现有库hongyausehongya;//使用hongya数据库3.2查看样例数据user_idage_rangegendermerchant_idlabelactivity_log3417660944-1408895:1505:7370:1107:03417660412-117235:1604:4396:0818:0#954723:1604:4396:0818:0#275437:16

4、04:4396:0818:0#236488:1505:4396:1024:0原始数据表:train_format2.csv数据user_idage_rangegendermerchant_idlabelactivity_log3417660944-1408895:1505:7370:1107:03417660412-117235:1604:4396:0818:03417660412-1954723:1604:4396:0818:03417660412-1275437:1604:4396:0818:03417660412-

5、1236488:1505:4396:1024:0中间表1:初步创建表将activity_log中以‘#’分割的数据拆成多行数据user_idage_rangegendermerchant_idlabelitem_idcategory_idbrand_idtime_stampaction_type3417660944-140889515057370110703417660412-117235160443968180中间表2:将拆成行的数据activity_log中以‘:’分割的数据拆分成元素3.3hive操作--创建表创建

6、比赛数据表match_data,要求表结构与提供的数据结构一样,信息包含用户iduser_id、用户性别gender、商家唯一idmerchant_id、购物者标签label,均为为int类型,用户与商家交互信息activity_log为varchar类型。createtablematch_data(user_idint,age_rangeint,genderint,merchant_idint,labelint,activity_logvarchar(1000))rowformatdelimitedfieldsterm

7、inatedby',';3.4hive基本操作—导入数据将root下的train_format2.csv数据导入到创建的match_data表中loaddatalocalinpath'/root/train_format2.csv'overwriteintotablematch_data;查看match_data数据select*frommatch_datalimit100;数据分析044.1数据分析—中间表中间表是数据库中专门存放中间计算结果的数据表。报表系统中的中间表是普遍存在的。分析接下来的四个问题:创建click

8、表,写入商品点击次数top100数据创建add_to_cart表,写入商品被加入购物车次数top100数据创建collect表,写入商品被收藏次数top100数据创建emption表,写入商品被购买次数top100数据4.1数据分析—中间表CREATETABLERESULTAS//创建RESULT表并获取match_

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。