hive用户手册)_中文版

hive用户手册)_中文版

ID:14293174

大小:647.00 KB

页数:69页

时间:2018-07-27

hive用户手册)_中文版_第1页
hive用户手册)_中文版_第2页
hive用户手册)_中文版_第3页
hive用户手册)_中文版_第4页
hive用户手册)_中文版_第5页
资源描述:

《hive用户手册)_中文版》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Hive用户指南v1.069目录1.HIVE结构61.1HIVE架构61.2Hive和Hadoop关系71.3Hive和普通关系数据库的异同81.4HIVE元数据库91.4.1DERBY91.4.2Mysql101.5HIVE的数据存储111.6其它HIVE操作112.HIVE基本操作122.1createtable122.1.1总述122.1.2语法122.1.3基本例子142.1.4创建分区152.1.5其它例子162.2AlterTable172.2.1AddPartitions172.2.2Dro

2、pPartitions172.2.3RenameTable172.2.4ChangeColumn182.2.5Add/ReplaceColumns182.3CreateView182.4Show192.5Load192.6Insert212.6.1InsertingdataintoHiveTablesfromqueries212.6.2Writingdataintofilesystemfromqueries212.7Cli222.7.1HiveCommandlineOptions222.7.2Hivein

3、teractiveShellCommand242.7.3HiveResources242.7.4调用python、shell等语言252.8DROP262.9其它272.9.1Limit272.9.2Topk272.9.3REGEXColumnSpecification273.HiveSelect273.1GroupBy283.2Order/SortBy284.HiveJoin29695.HIVE参数设置316.HIVEUDF336.1基本函数336.1.1关系操作符336.1.2代数操作符346.1.3

4、逻辑操作符356.1.4复杂类型操作符356.1.5内建函数366.1.6数学函数366.1.7集合函数366.1.8类型转换366.1.9日期函数366.1.10条件函数376.1.11字符串函数376.2UDTF396.2.1Explode397.HIVE的MAP/REDUCE417.1JOIN417.2GROUPBY427.3DISTINCT428.使用HIVE注意点438.1字符集438.2压缩438.3count(distinct)438.4JOIN438.5DML操作448.6HAVING44

5、8.7子查询448.8Join中处理null值的语义区别449.优化与技巧479.1全排序479.1.1例1489.1.2例2519.2怎样做笛卡尔积549.3怎样写exist/in子句549.4怎样决定reducer个数559.5合并MapReduce操作559.6Bucket与sampling569.7Partition579.8JOIN589.8.1JOIN原则589.8.2MapJoin589.8.3大表Join的数据偏斜609.9合并小文件62699.10GroupBy6210.HIVEFAQ:

6、62691.HIVE结构Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。1.1HIVE架构Hive的结构可以分为以下几部分:·用户接口:包括C

7、LI,Client,WUI·元数据存储。通常是存储在关系数据库如mysql,derby中69·解释器、编译器、优化器、执行器·Hadoop:用HDFS进行存储,利用MapReduce进行计算1、用户接口主要有三个:CLI,Client和WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至HiveServer。在启动Client模式的时候,需要指出HiveServer所在节点,并且在该节点启动HiveServer。WUI是通过浏览器访问Hiv

8、e。2、Hive将元数据存储在数据库中,如mysql、derby。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。3、解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。4、Hive的数据存储在HDFS中,大部分的查询由MapReduce完成(包含*的查询,比如se

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。