Создать таблицу Hive на основе схемы файла Parquet - PullRequest
0 голосов
/ 23 марта 2019

Итак, у меня есть каталог с около 600 паркетными файлами, и с помощью parquet-tools я извлек схему файлов:

message spark_schema {
  optional int64 af;
  optional binary dst_addr (STRING);
  optional binary dst_name (STRING);
  optional binary from (STRING);
  optional int64 fw;
  optional int64 group_id;
  optional binary li (STRING);
  optional int64 lts;
  optional binary mode (STRING);
  optional int64 msm_id;
  optional binary msm_name (STRING);
  optional int64 poll;
  optional int64 prb_id;
  optional double precision;
  optional binary proto (STRING);
  optional binary refid (STRING);
  optional double refts;
  optional group result (LIST) {
    repeated group bag {
      optional group array {
        optional binary error (STRING);
        optional double finalts;
        optional binary li (STRING);
        optional double offset;
        optional double origints;
        optional int64 poll;
        optional double precision;
        optional double receivets;
        optional binary refid (STRING);
        optional double refts;
        optional double rootdelay;
        optional double rootdispersion;
        optional double rtt;
        optional binary stratum (STRING);
        optional double transmitts;
        optional binary x (STRING);
      }
    }
  }
  optional double rootdelay;
  optional double rootdispersion;
  optional binary src_addr (STRING);
  optional binary stratum (STRING);
  optional int64 timestamp;
  optional double ttr;
  optional binary type (STRING);
  optional int64 version;
}

Мой вопрос: как мне использовать это для создания таблицы Hive??Затем заполнить его данными из файлов?В идеале мне нужно, чтобы все данные из 600 файлов можно было запрашивать с помощью Hive.

...