Question

У меня есть куча zip-файлов CSV, из которых я хочу создать таблицу Hive. Я пытаюсь выяснить, как лучше это сделать.

Разархивируйте файлы, загрузите их в HDFS.
Есть ли способ скопировать файлы в HDFS, распаковать
Или есть другой лучший / рекомендуемый способ?

user300313 · Answer 1 · 17 июня 2011

Обычной практикой является преобразование CSV-файлов в разделенные табуляцией или с помощью Ctrl A, или Ctrl B с разделителями, а затем загрузите их в Hadoop / Hive.

Для загрузки файлов в HDFS вы можете использовать следующую команду -

hadoop fs -put file_to_uplload hdfs_path

Полагаю, вы хотели бы автоматизировать это. В этом случае вам помогут следующие инструкции.

Создание таблицы кустов с отображением столбцов в файлы CSV-файлов (на этом шаге можно удалить ненужные поля). Выберите свой разделитель в улье.
Преобразование файлов CSV в формат с разделителями (Ctrl A или Ctrl B)
Загрузка файлов в папку Hive.

Вы можете автоматизировать шаги, используя скрипты / framework для пакетной обработки Python.

Для дальнейшего чтения: http://wiki.apache.org/hadoop/Hive/GettingStarted

Hive - создать таблицу из zip-файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hive - создать таблицу из zip-файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы