Учитывая: Hive Version 2.3.0 onwards
, у меня есть таблица Hive
и фиксированный DDL от долгого времени. Теперь raw data
идет в другом порядке columns
как text
файлы и должен хранить данные в формате parquet
с фиксированными критериями разбиения. Мой вопрос заключается в том, как справиться с такой ситуацией, когда входящие данные имеют different arrangement of columns
.
Пример:
CREATE TABLE users ( col1 string, col2 int, col3 string ... )
PARTITIONED BY (...)
STORED AS PARQUET;
, а порядок входящих данных подобен
col1 col3 col2
(row) x p 1
y q 2
in text
файлов, обратите внимание на порядок столбцов.
Мне трудно найти правильную информацию, может кто-нибудь объяснить лучшие практики, как справиться с такой ситуацией? Если это небольшой файл, мы можем использовать сценарии для исправления текста, но если его объем и каждый раз текстовые файлы имеют разную структуру, что делать? Ценю любой ответ / отзыв.