Для этого достаточно реализовать StoreFunc.
Теперь это возможно, хотя с появлением Pig 0.7 это станет намного проще, поскольку он включает в себя полную переработку интерфейсов Load / Store.
Пакет расширения Hadoop Twitter собирается открыть исходный код с открытым исходным кодом на github , включает код для генерации функций загрузки и хранения на основе буферов протокола Google (основывается на вводе / Выходные форматы для того же - у вас уже есть те для файлов последовательности, очевидно). Проверьте это, если вам нужны примеры того, как сделать некоторые из менее тривиальных вещей. Это должно быть довольно просто, хотя.