(Для потомков, решение, соответствующее подпарам, которое мы придумали:)
Чтобы справиться с проблемой 0-байтов, мы обнаружили, что можем обнаружить ситуацию и вместо этого вставить файлс одной новой строки.Это вызывает сообщение вроде:
Encountered Warning ACCESSING_NON_EXISTENT_FIELD 13 time(s).
, но, по крайней мере, Pig не падает с исключением.
В качестве альтернативы, мы могли бы создать строку с соответствующим количеством символов '\t'
для этого файла, что позволило бы избежать предупреждения, но это вставило бы мусор в данные, которые мы затем должны были бы отфильтровать.
Эти же идеи можно использовать для решения условия отсутствия входных файлов путем создания фиктивного файла, но он имеет те же недостатки, что и перечисленные выше.