Hive学习笔记-Hive优化(1)-Hive性能优化 在实际执行的时候,Hive可能出现性能问题。本笔记简单学习了不同情形下的优化手段,包括Hive中分区表、分桶表以及索引的设计和应用场景;文件格式以及数据压缩的优化、存储优化;explain解析命令的使用;MapReduce的属性优化、join方案的优化;优化器的使用以及数据倾斜问题的处理方案。 2022-07-05 大数据 > Hive #笔记 #Hive
Hive学习笔记-HiveSQL(4)-Hive函数重要应用案例 Hive中为我们提供了功能丰富的函数,函数的应用也是非常重要的。本笔记主要学习了Hive中多字节分隔符的处理、URL解析函数、行列之间的转换函数,json数据处理以及拉链表的设计实现。 2022-07-05 大数据 > Hive #笔记 #Hive
Hive学习笔记-HiveSQL(3)-Hive参数配置 运算符以及函数使用 Hive中还支持多种运算符以及函数的使用。本笔记中记录了Hive的参数配置、Hive中内置运算符的使用、内置函数以及用户自定义函数的使用。之后还介绍了Hive中的exploded函数与侧视图、聚合函数、窗口函数以及抽样函数。 2022-07-04 大数据 > Hive #笔记 #Hive
Hive学习笔记-HiveSQL(2)-数据操控语言DML与数据查询语言DQL 除了数据定义语言,HiveSQL中还有数据操控语言DML以及数据查询语言DDL。具体来说包括加载数据、插入数据等操作,事务表相关操作以及查询操作,最后再介绍Hive SQL中的join连接操作。 2022-07-04 大数据 > Hive #笔记 #Hive
Hive学习笔记-HiveSQL(1)-数据定义语言DDL Hive SQL是Hive中提供的类似于SQL的数据查询语言,本笔记首先介绍了其中的数据定义语言,其中着重介绍了Hive SQL中的建表语法,当然也包括了其他的DDL语法。同时也也需要着重关注Hive中的内部表、外部表、分区表、分桶表等概念。 2022-07-03 大数据 > Hive #笔记 #Hive
Hive学习笔记-入门(2)-Hive概述以及集群搭建 Hive概述内容主要包括Hive的相关基本概念、Hive架构、Hive数据模型等。之后介绍了Hive中的元数据以及集群搭建的过程,在过程中介绍了metastore的三种配置方式,以及Hive的不同客户端。最后初步体验了Hive中的功能,包括类SQL的命令语句和对HDFS中结构化数据的映射。 2022-07-02 大数据 > Hive #笔记 #Hive
Hive学习笔记-入门(1)-数据仓库基础理论 Hive是一个数据仓库软件,在学习Hive之前,有必要了解数据仓库的基础理论,包括数据仓库的概念、数据仓库的主要特征、以及数据仓库的分层架构等。 2022-07-02 大数据 > Hive #笔记 #Hive #数据仓库
Shell基础学习笔记 Shell是一门脚本语言,本笔记记录了Shell基础的学习,包括Shell脚本语言的基础语法,以及一些举例的应用等。 2022-06-29 后端 > Shell #Linux #笔记 #Shell
Linux基础学习笔记 Linux基础学习笔记,包括Linux的基本概述、文件目录结构、Vi/Vim编辑器的使用、系统管理、软件包管理等方面的基本知识,以及常用的基本Shell命令。 2022-06-28 操作系统 > Linux #Linux #笔记