Используйте Hadoop Pig для загрузки данных из текстового файла с каждой записью в несколько строк? - PullRequest
2 голосов
/ 17 июля 2011

У меня есть файл данных в следующем формате:

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

Как лучше всего прочитать этот файл с помощью Hadoop / pig / для анализа?

1 Ответ

1 голос
/ 18 июля 2011

Есть ли способ, которым вы можете контролировать способ записи данных?Написание процесса, который перемещает это в разделенную табуляцией, поможет вам сделать это "из коробки".

В противном случае, написание единственного читателя записей (в Pig или Java MapReduce) может быть единственным вариантом.Ни то, ни другое не очень сложно.

...