У меня есть таблица Hive, в которой есть базовые файлы в формате Avro со схемой (xyz.avsc), прикрепленной к ней. Оба находятся в HDFS.
Я хотел бы прочитать данные файла Avro, как мы читаем текстовый файл HDFS (sc.textFile ('hdfs: // data / filename')), чтобы сгенерировать немного статистики и запустить несколько sparksql для них.
Подскажите, пожалуйста, как мне прочитать файл Avro?
Ограничение: у меня установлена только библиотека Avro. (Не фаст-авро или датро-кирпичи авро).
PS: я не хочу читать данные через Hive, так как это будет узким местом в производительности.