Обычной практикой является преобразование CSV-файлов в разделенные табуляцией или с помощью Ctrl A, или Ctrl B с разделителями, а затем загрузите их в Hadoop / Hive.
Для загрузки файлов в HDFS вы можете использовать следующую команду -
hadoop fs -put file_to_uplload hdfs_path
Полагаю, вы хотели бы автоматизировать это. В этом случае вам помогут следующие инструкции.
Создание таблицы кустов с отображением столбцов в файлы CSV-файлов (на этом шаге можно удалить ненужные поля). Выберите свой разделитель в улье.
Преобразование файлов CSV в формат с разделителями (Ctrl A или Ctrl B)
- Загрузка файлов в папку Hive.
Вы можете автоматизировать шаги, используя скрипты / framework для пакетной обработки Python.
Для дальнейшего чтения:
http://wiki.apache.org/hadoop/Hive/GettingStarted