hadoop数据仓库工具--hive介绍

hadoop数据仓库工具--hive介绍

ID:13243961

大小:1.09 MB

页数:14页

时间:2018-07-21

hadoop数据仓库工具--hive介绍_第1页
hadoop数据仓库工具--hive介绍_第2页
hadoop数据仓库工具--hive介绍_第3页
hadoop数据仓库工具--hive介绍_第4页
hadoop数据仓库工具--hive介绍_第5页
资源描述:

《hadoop数据仓库工具--hive介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、HIVE介绍1简介1.1是什么hive是一个基于hadoop的数据仓库。使用hadoop-hdfs作为数据存储层;提供类似SQL的语言(HQL),通过hadoop-mapreduce完成数据计算;通过HQL语言提供使用者部分传统RDBMS一样的表格查询特性和分布式存储计算特性。类似的系统有yahoo的pig[1],google的sawzall[2],microsoft的DryadLINQ[3]。1.2架构图表1hive架构图[4]1、操作界面:CLI,Web,Thrift2、driver:hive系统将用户操作转化为mapreduce计算的模块(重点)百度在线网络技术(北京)有限公司1、h

2、adoop:hdfs+mapreduce2、metastore:存储元数据1.1语言一般有DDL和DML两种:hive采用DDL方式和少量DML方式,类似sql;pig使用DML方式。DDL:datadefinitionlanguage(只讲definition,不讲实现){create/alter/drop}{table/view/partition}createtableasselectDML:datamanipulationlanguage(有关于实现操作)insertoverwritehive示例加载loaddatalocalinput‘/logs/urls.txt’intotab

3、leurlspartition(ds=’2010-01-01’);写入INSERTOVERWRITETABLEresult操作SELECTcategory,AVG(pagerank)FROMurlsWHEREpagerank>0.2GROUPBYcategory;pig示例加载urls=LOAD‘/logs/urls.txt’USINGmyLoad()AS(category,pagerank);操作good_urls=FILTERurlsBYpagerank>0.2;groups=GROUPgood_urlsBYcategory;output=FOREACHgroupsGENERATEca

4、tegory,AVG(good_urls.pagerank);写入STOREoutputINTO‘myoutput’USINGmyStore();hive中使用自定义map-reduceFROM(FROMpv_usersMAPpv_users.userid,pv_users.dateUSING'map_script'ASdt,uidCLUSTERBYdt)map_outputINSERTOVERWRITETABLEpv_users_reducedREDUCEmap_output.dt,map_output.uidUSING'reduce_script'ASdate,count;百度在线网络

5、技术(北京)有限公司1.1其他一些功能1、能够ALERT一个table,主要是add一个column。2、分区(partition):a)建表的时候指定分区方式:CREATETABLEinvites(fooINT,barSTRING)PARTITIONEDBY(dsSTRING);b)导入的时候指定分区依据:LOADDATALOCALINPATH'./examples/files/kv2.txt'OVERWRITEINTOTABLEinvitesPARTITION(ds='2008-08-15');LOADDATALOCALINPATH'./examples/files/kv3.txt'O

6、VERWRITEINTOTABLEinvitesPARTITION(ds='2008-08-08');3、类似select*fromtbl的查询不需要MapReduce。4、hive不只是可以mapreduce图表2hive结合HBase的逻辑图[5]”图表3reduce阶段写入HBase的方式[5]”百度在线网络技术(北京)有限公司图表4map-onlyjob写入HBase的方式[5]”1实现1.1原数据Q:具体结构是怎样的?(Metadata)hive的元数据存储在传统的RDBMS中,现在为mysql中。采用JDOS:可以查看'javax.jdo.option.ConnectionUR

7、L'and'javax.jdo.option.ConnectionDriverName'两个变量(JPOX)。原因:访问这些Metadata,我们想要“很低的延时”,而存在hdfs中是无法满足。(元数据对hive是相当重要的,因此一般要求有备份机制Q:不清楚具体的备份机制)使用:元数据都是在HQL语句编译的时候O:但前期编译时间会适当变长,就被生成一个xml文件(包含此次编译所有需要的元数据信息)存储在hdfs中,然后运

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。