Сравнение типов данных авро в AWS S3 - PullRequest
0 голосов
/ 04 декабря 2018

У меня есть 2 файла с типами данных AVRO (один из данных SQL-сервера и другой из Redshift) в AWS S3.Как мне сравнить и узнать разницу?Афина - единственный путь?

1 Ответ

0 голосов
/ 04 декабря 2018

По большому счету не имеет значения, из какой платформы базы данных получены эти данные, поскольку ни одна из этих платформ не экспортирует данные изначально в формат Avro, поэтому мы должны предположить, что какой-то сторонний процесс использовался для извлечения данных и генерации файлов.

К вашему актуальному вопросу о том, как проанализировать данные в этих файлах и провести какое-то сравнение, есть несколько вариантов использования AWS в зависимости от того, к чему у вас есть доступ:

1) Скопируйте (загрузите) оба файла в Redshift и используйте операторы SQL для сравнения
2) Создайте таблицы Redshift Spectrum для файлов в S3 и используйте SQL
3) Создайте кластер EMR и используйте SparkSQL, Presto или другой инструментзапуск в кластере для анализа данных
4) Создайте таблицы в Афинах, которые ссылаются на эти файлы и используют SQL

...