🗒️ORC|使用 Hive 查看 ORC 文件内容
2023-7-27
| 2024-7-21
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
category
icon
password
演示如何分析一个实际的 Hive ORC 表中的数据存储形式。

找到文件

建表语句如下,并往里面插入两条数据。
通过 show create table orc_test; 查看表存储信息。
根据上图中的 LOCATION 信息,找到在 HDFS 上的 ORC 文件:

解析命令

hive 提供了一个命令查看 HDFS 上 ORC 文件的信息,使用方法为:
因此我们可以通过下面的命令查询结果:
为了方便分析,我们可以使用输出重定向到文件来查看。

结果分析

从 dump 文件中可以看出,大致分成四个部分:
下面分别对这四个部分进行说明。
  • 表结构信息
记录整张表的记录数,压缩方式,压缩大小,以及表结构。
在表结构部分,将整张表的所有字段构造成一个大的 struct 结构。
  • Stripe 统计信息
统计当前 ORC 文件对应 Stripe 的信息,包括各个字段的 count,min, max, sum 信息。对于最外层的 Struct,只统计其 count 值。
由于这张表数据量不大,当前 HDFS文件中只有一个 Stripe。
  • File 统计信息
统计内容和第二部分一致,不过这里统计的整张表的每个字段 count, min, max, sum 信息。
这里我们将 dump 文件中的统计信息,与各字段实际统计信息作对比:
发现对于 int 类型的字段,min, max, sum 的结果都是匹配的。
但是对于 string 类型的字段,仅仅只有 min, max 统计结果一致,sum 的结果不相同。
  • Stripe 详细信息
统计各 Stripe 的 offset,总记录行数等 Stripe 层次的信息。该 Stripe 中各字段的 Index Data 和 Row Data,以及每个字段的编码方式。
 
  • ORC
  • calcite算法题:复制带随机指针的链表
    Loading...
    目录