Импорт данных из HDFS в таблицу Hive - PullRequest
5 голосов
/ 23 апреля 2011

У меня есть данные в файле data / 2011/01/13/0100 / в HDFS, каждый из этих файлов содержит данные, разделенные табуляцией, скажем name, ip, url.

Я хочу создать таблицу в Hive и импортировать данные из hdf, таблица должна содержать время, имя, ip и url.

Как я могу импортировать их, используя Hive? Данные должны быть в другом формате, чтобы я мог импортировать время?

Ответы [ 3 ]

4 голосов
/ 28 апреля 2011

Вам необходимо создать таблицу для загрузки файлов, а затем использовать команду LOAD DATA для загрузки файлов в таблицы Hive.Точный синтаксис см. В документации Hive .

С уважением, Джефф

0 голосов
/ 24 сентября 2014

Вы можете создать внешнюю таблицу для таких данных.

Что-то вроде:

CREATE EXTERNAL TABLE log_data (имя STRING, IP STRING, URL STRING) Разделен на (год BIGINT, месяц BIGINT, день BIGINT, час BIGINT) Поля с разделителями формата строки, оканчивающиеся на '\ t', хранящиеся как TEXTFILE местоположение 'data'

0 голосов
/ 23 апреля 2011

Для этого вам нужно использовать разделы, подробнее о них читайте здесь:

...