Hive: загрузить gziped CSV из hdfs в таблицу только для чтения в таблицу - PullRequest
0 голосов
/ 29 июня 2018

У меня есть папка hdfs со многими csv.gz внутри, все с той же схемой. Мой клиент должен прочитать содержимое этих таблиц через Hive.

Я пытался применить https://cwiki.apache.org/confluence/display/Hive/CompressedStorage. Однако он перемещает файл, тогда как мне нужно, чтобы он оставался в исходном каталоге.

Другая проблема заключается в том, что я должен загружать каждый файл один за другим, я бы лучше создал таблицу из каталога, а не управлял файлом по отдельности.

Я совсем не осваиваю Улей. Возможно ли это?

1 Ответ

0 голосов
/ 29 июня 2018

Да, это возможно через Hive. Вы можете создать внешнюю таблицу и ссылаться на существующее местоположение HDFS, содержащее файлы gzip. Схема для данных должна быть указана при создании таблицы.

hive> CREATE EXTERNAL TABLE my_data 
      (
        column_1 int,
        column_2 string
      )
      LOCATION 'hdfs:///my_data_folder_with_gzip_files';
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...