для получения вывода (файла или чего-либо еще) вам необходимо присвоить данные переменной, вот как она работает с STORE
. Если идентификаторы ограничены и конечны, вы можете FILTER
их один за другим, а затем STORE
их. (Я всегда делаю это для типов действий, которые составляют около 20-25).
Но если вам нужно получить каждый уникальный идентификатор, то создайте 2 файла. 1 с целыми данными, сгруппированными по id, 1 с просто уникальными идентификаторами. Затем попробуйте сгенерировать 1 (или более, если у вас слишком много) сценариев PIG, которые FILTER BY с этим идентификатором. Но это плохое решение. Предполагая, что вы сгруппируете 10 идентификаторов в сценарии PIG, у вас будет (10 уникальных идентификаторов) 10 сценариев PIG для запуска.
Остерегайтесь того, что Hdfs плохо справляются со слишком большим количеством маленьких файлов.
Edit:
Лучшим решением будет GROUP и SORT по уникальному идентификатору большого файла. Затем, после его сортировки, вы можете легко разделить содержимое с помощью стороннего скрипта.