Итак, у меня есть каталог с около 600 паркетными файлами, и с помощью parquet-tools я извлек схему файлов:
message spark_schema {
optional int64 af;
optional binary dst_addr (STRING);
optional binary dst_name (STRING);
optional binary from (STRING);
optional int64 fw;
optional int64 group_id;
optional binary li (STRING);
optional int64 lts;
optional binary mode (STRING);
optional int64 msm_id;
optional binary msm_name (STRING);
optional int64 poll;
optional int64 prb_id;
optional double precision;
optional binary proto (STRING);
optional binary refid (STRING);
optional double refts;
optional group result (LIST) {
repeated group bag {
optional group array {
optional binary error (STRING);
optional double finalts;
optional binary li (STRING);
optional double offset;
optional double origints;
optional int64 poll;
optional double precision;
optional double receivets;
optional binary refid (STRING);
optional double refts;
optional double rootdelay;
optional double rootdispersion;
optional double rtt;
optional binary stratum (STRING);
optional double transmitts;
optional binary x (STRING);
}
}
}
optional double rootdelay;
optional double rootdispersion;
optional binary src_addr (STRING);
optional binary stratum (STRING);
optional int64 timestamp;
optional double ttr;
optional binary type (STRING);
optional int64 version;
}
Мой вопрос: как мне использовать это для создания таблицы Hive??Затем заполнить его данными из файлов?В идеале мне нужно, чтобы все данные из 600 файлов можно было запрашивать с помощью Hive.