HIVE教程

鸣宇淳博客园

前言

Hive是对于数据仓库进行管理和分析的工具。但是不要被“数据仓库”这个词所吓倒，数据仓库是很复杂的东西，但是如果你会SQL，就会发现Hive是那么的简单，简单到甚至不用学就可以使用Hive做出业务需求所需要的东西。

但是Hive和SQL毕竟不同，执行原理、优化方法，底层架构都完全不相同。

大数据离线分析使用Hive已经成为主流，但是目前市面上Hive相关的中文书籍只有一本《Hive编程指南》，对于不懂技术的数据分析人员来说，这本书有些繁琐和深奥；对于Hive技术人员来说，这本书对于原理和细节描述的又显得浅显和不足。

基于工作中的Hive使用情况，我整理了这个实用性的教程，这个教程分为三个部分：Hive基本使用、Hive执行原理与优化、Hive高级知识。由浅入深地简单介绍Hive技术。

第一部分：完全以日常使用为目标，整理了常用的Hive语法，而抛弃了不常用的部分，用来满足不懂技术的分析人员来快速使用Hive进行常见的日常数据分析。

第二部分：如果想能写出高效的Hive语句，必须要先了解Hive执行原理，然后掌握一系列的优化方法。所以第二部分主要内容是Hive原理与优化。

第三部分：讲解Hive的一系列技术细节，以满足技术人员想了解技术细节的要求，为能更加高效和灵活地使用Hive提供技术基础。

三个部分的详细说明：

模块	主要内容	预期目标	面对人群
Hive基本使用	Hive概念、常用语法、内置函数、自定义函数	可以使用Hive做常见的大数据分析工作	能统计出数即可的分析人员
Hive执行原理与优化	Hive技术架构、执行原理、优化方法	了解Hive执行原理，可以写出性能比较好的Hive程序	对性能有要求的分析人员
Hive高级知识	Hive技术细节	了解Hive技术细节	对Hive原理感兴趣的人员

参考资料：

1、Hive编程指南》 Eduard Capriolo、Dean Wampler、Jason Rutberglen 著曹坤译

2、Hive官方文档：https://cwiki.apache.org/confluence/display/Hive/GettingStarted

3、互联网上其他资源

第一部分：Hive基本使用

一、 Hive简介

1、定义

2、 Hive的几个特点

3、 Hive使用

二、 Hive中的基本数据类型

三、 Hive DDL 数据定义语法

1、创建数据库

2、查看数据库定义

3、查看数据库列表

4、删除数据库

5、切换当前数据库

6、创建普通表

7、创建分区表

8、创建桶表

9、查看有哪些表

10、查看表定义

11、修改表

12、删除表

四、 Hive DML 数据管理语法

1、向Hive中加载数据

2、导出数据

3、插入数据

4、复制表

5、克隆表

6、备份表

7、还原表

五、 Hive QL 数据查询语法

1、 Select 查询

2、 Where筛选

3、 Group By 分组

4、子查询

六、 Join

1、 Hive Join的限制

2、 Inner join

3、 Left join

4、 Right join

5、 Full join

6、 Left Semi-Join ( exists 语句)

七、排序

1、 Order By

2、 Sort By

3、 Distribute By 和 Sort By

4、 Cluster By

5、常见全局排序需求

八、 Hive内置函数

1、参考资料

2、 explode函数

3、 collect_set函数

4、 collect_list函数

九、 Hive自定义函数

1、 UDF用户自定义函数（一进一出）

2、 UDAF用户自定义聚合函数（多进一出）

3、 UDTF自定义表生成函数（一进多出）

第二部分：Hive执行原理与优化

十、 Hive技术架构

1、架构图

2、 Hive的核心

3、 Hive的底层存储

4、 Hive程序的执行过程

5、 Hive的元数据存储

6、 Hive客户端

十一、 MapReduce执行过程

十二、 Shuffle原理

1、 Map Shuffle过程

2、 Reduce Shuffle过程

十三、性能瓶颈和优化

十四、 HiveQL层面优化

1、利用分区表优化

2、利用桶表优化

3、 join优化

4、启用mapjoin

5、桶表mapjoin

6、 Group By数据倾斜优化

7、 Order By优化

8、 Group By Map端聚合

9、一次读取多次插入

10、 Join字段显示类型转换

11、使用orc、parquet等列式存储格式

十五、 Hive架构层面优化

1、不执行MapReduce

2、本地模式执行MapReduce

3、 JVM重用

4、并行化

十六、 Hive底层MapReduce优化

1、合理设置Map数

2、合理设置reduce数

第三部分：Hive高级知识

十七、 Hive文件格式

1、常见文件格式

2、列式存储

十八、 Hive压缩方法

1、压缩的原因

2、 Hadoop常用压缩方法

3、配置Hadoop压缩解压

4、 Hive中的压缩

十九、复杂类型

1、举例

2、 array类型

3、 map类型

4、 struct类型

5、 union类型

6、字段分隔符

二十、 Hive SQL转换为MapReduce过程

二十一、 Hive解释器

1、词法语法解析

2、生成抽象语法树

二十二、 Hive编译器

二十三、 Hive优化器

二十四、 Hive执行器

附录A ： HIVE安装

1、安装Hive

2、配置Hive

3、安装MySQL数据库

4、在远程MySQL存储模式配置

5、启动Hadoop

6、启动Hive

7、测试hive

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

集团数字化转型项目实施方案建议书 ₂₀₂₁
运行在Amazon ECS上的微服务架构 ₂₀₁₈
隐私计算在金融领域中的应用 ₂₀₂₁
蓝象智联隐私计算互联互通实践 ₂₀₂₂
Uncovering ChatGPT's Capabilities in Recommender Systems ₂₀₂₃
管理会计在企业经营中的作用 ₂₀₁₈
智能工厂MES项目实施建设方案 ₂₀₂₂
十年数字化转型的经验教训 ₂₀₁₆

也许您喜欢

Apache Hive中如何进行分区
36大数据网友
0年数据分析老司机的深度思考
简书 CIO之家的朋友
终于有人把用户画像的流程、方法讲明白了
CSDN 网友
你对大数据的认知,也许都是错的
经理人分享汪祥斌
数据分析：如何深挖原因，推动业务
数据分析不是个事儿 Jason
使用Flume+Kafka+SparkStreaming进行实时日志分析
CSDN 网友