Hive – 分区

Hive – 分区


Hive 将表组织成分区。它是一种根据日期、城市和部门等分区列的值将表划分为相关部分的方法。使用分区,可以很容易地查询到一部分数据。

表或分区被细分为桶,为数据提供额外的结构,可用于更有效的查询。分桶基于表的某些列的哈希函数值工作。

例如,名为Tab1的表包含员工数据,例如 id、name、dept 和 yoj(即加入年份)。假设您需要检索 2012 年加入的所有员工的详细信息。查询在整个表中搜索所需信息。但是,如果您将员工数据按年份分区并将其存储在单独的文件中,则会减少查询处理时间。以下示例显示了如何对文件及其数据进行分区:

以下文件包含员工数据表。

/tab1/employeedata/file1

ID,姓名,部门,yoj
1, 戈帕尔, TP, 2012
2、基兰,人力资源,2012
3、kaleel,SC, 2013
4、Prasanth, SC, 2013

上面的数据使用 year 分成两个文件。

/tab1/employeedata/2012/file2

1, 戈帕尔, TP, 2012
2、基兰,人力资源,2012

/tab1/employeedata/2013/file3

3、kaleel,SC, 2013
4、Prasanth, SC, 2013

添加分区

我们可以通过更改表来向表添加分区。假设我们有一个名为employee的表,其中包含Id、Name、Salary、Designation、Dept 和yoj 等字段。

句法:

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;

partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)

以下查询用于向员工表添加分区。

hive> ALTER TABLE employee
> ADD PARTITION (year=’2012’)
> location '/2012/part2012';

重命名分区

该命令的语法如下。

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

以下查询用于重命名分区:

hive> ALTER TABLE employee PARTITION (year=’1203’)
   > RENAME TO PARTITION (Yoj=’1203’);

删除分区

以下语法用于删除分区:

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec, PARTITION partition_spec,...;

以下查询用于删除分区:

hive> ALTER TABLE employee DROP [IF EXISTS]
   > PARTITION (year=’1203’);

觉得文章有用?

点个广告表达一下你的爱意吧 !😁