Hive - создать таблицу из zip-файла - PullRequest
4 голосов
/ 17 июня 2011

У меня есть куча zip-файлов CSV, из которых я хочу создать таблицу Hive. Я пытаюсь выяснить, как лучше это сделать.

  • Разархивируйте файлы, загрузите их в HDFS.
  • Есть ли способ скопировать файлы в HDFS, распаковать
  • Или есть другой лучший / рекомендуемый способ?

1 Ответ

3 голосов
/ 17 июня 2011

Обычной практикой является преобразование CSV-файлов в разделенные табуляцией или с помощью Ctrl A, или Ctrl B с разделителями, а затем загрузите их в Hadoop / Hive.

Для загрузки файлов в HDFS вы можете использовать следующую команду -

hadoop fs -put file_to_uplload hdfs_path

Полагаю, вы хотели бы автоматизировать это. В этом случае вам помогут следующие инструкции.

  1. Создание таблицы кустов с отображением столбцов в файлы CSV-файлов (на этом шаге можно удалить ненужные поля). Выберите свой разделитель в улье.

  2. Преобразование файлов CSV в формат с разделителями (Ctrl A или Ctrl B)

  3. Загрузка файлов в папку Hive.

Вы можете автоматизировать шаги, используя скрипты / framework для пакетной обработки Python.

Для дальнейшего чтения: http://wiki.apache.org/hadoop/Hive/GettingStarted

...