Хранение данных в SequenceFile из Apache Pig - PullRequest
9 голосов
/ 11 марта 2010

Apache Pig может загружать данные из файлов последовательности Hadoop, используя PiggyBank SequenceFileLoader:

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

Есть ли еще библиотека, позволяющая записывать файлы последовательности Hadoop из Pig?

Ответы [ 2 ]

2 голосов
/ 01 июня 2012

Мне показалось, что это работает. https://github.com/kevinweil/elephant-bird/pull/73

2 голосов
/ 12 марта 2010

Для этого достаточно реализовать StoreFunc.

Теперь это возможно, хотя с появлением Pig 0.7 это станет намного проще, поскольку он включает в себя полную переработку интерфейсов Load / Store.

Пакет расширения Hadoop Twitter собирается открыть исходный код с открытым исходным кодом на github , включает код для генерации функций загрузки и хранения на основе буферов протокола Google (основывается на вводе / Выходные форматы для того же - у вас уже есть те для файлов последовательности, очевидно). Проверьте это, если вам нужны примеры того, как сделать некоторые из менее тривиальных вещей. Это должно быть довольно просто, хотя.

...