Как я могу выполнить AVRO Diff (разница между 2 файлами AVRO) в Python - PullRequest
0 голосов
/ 03 июля 2018

На этот вопрос здесь в некоторой степени дан ответ: Можно ли сравнить два файла avro, чтобы увидеть, какие различия существуют в данных?

Однако я хочу проверить, существует ли какой-либо более простой способ создания функции в Python, который принимает два файла AVRO, сравнить их и определить, являются ли они одинаковыми или разными. Я понимаю, что схемы должны быть проверены, а затем содержание.

1 Ответ

0 голосов
/ 05 июля 2018

-> Где вы пытаетесь запустить эту программу? -> это в кластере, где установлен улей / свинья? если вы можете загрузить оба файла в pigscript, сгруппировать и считать каждую строку == 2 должно помочь вам, поскольку они одинаковы или нет.

если это не кластер - я вернусь к java, чтобы использовать avroutil jar, прочитать файлы и начать перебирать записи. [Я не уверен насчет масштабируемости файлов данных в этом подходе]

Лучший способ - использовать hive / pig в вашей программе-обертке для сравнения данных, которые эффективны и масштабируемы.

...