-> Где вы пытаетесь запустить эту программу?
-> это в кластере, где установлен улей / свинья?
если вы можете загрузить оба файла в pigscript,
сгруппировать и считать каждую строку == 2 должно помочь вам, поскольку они одинаковы или нет.
если это не кластер - я вернусь к java, чтобы использовать avroutil jar, прочитать файлы и начать перебирать записи. [Я не уверен насчет масштабируемости файлов данных в этом подходе]
Лучший способ - использовать hive / pig в вашей программе-обертке для сравнения данных, которые эффективны и масштабируемы.