Как объединить файлы в Hive разделенных и объединенных в один большой файл? - PullRequest
1 голос
/ 02 ноября 2019

Я работаю над кластером Azure HDInsight для обработки больших данных. Несколько дней назад я создал в кусте многораздельную таблицу с объединением множества файлов.

Так как Azure не дает никакой возможности остановить кластер, поэтому мне пришлось удалить кластер, чтобы сохранить стоимость. Данные независимо хранятся в учетной записи хранения Azure. Когда я создаю новый кластер, используя ту же учетную запись хранения, я вижу базу данных и таблицу с помощью команд HDFS, но hive не может прочитать эту базу данных или таблицу, возможно, в hive нет метаданных об этом.

Единственный вариант, который у меня остался, - это объединить все эти многораздельные и объединенные файлы в один файл, а затем снова создать таблицу. Так есть ли способ, с помощью которого я могу перенести эту таблицу в другую базу данных или объединить ее, чтобы было легче перенести ??

1 Ответ

0 голосов
/ 02 ноября 2019

Вы можете создать EXTERNAL TABLE (с теми же свойствами, что и раньше), указывающие на это HDFS location. Поскольку вы упомянули, что у него есть разделы, вы можете запустить MSCK REPAIR TABLE table-name, чтобы вы также могли видеть разделы.

Надеюсь, это поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...