Прочитайте файл Avro с файлом схемы, используя PySpark. (Ограничение на библиотеки) - PullRequest
0 голосов
/ 03 мая 2019

У меня есть таблица Hive, в которой есть базовые файлы в формате Avro со схемой (xyz.avsc), прикрепленной к ней. Оба находятся в HDFS. Я хотел бы прочитать данные файла Avro, как мы читаем текстовый файл HDFS (sc.textFile ('hdfs: // data / filename')), чтобы сгенерировать немного статистики и запустить несколько sparksql для них.

Подскажите, пожалуйста, как мне прочитать файл Avro?

Ограничение: у меня установлена ​​только библиотека Avro. (Не фаст-авро или датро-кирпичи авро).

PS: я не хочу читать данные через Hive, так как это будет узким местом в производительности.

...