Как мне прочитать файл avro как список объектов в Java Spark - PullRequest
0 голосов
/ 22 января 2020

У меня есть файл avro, который я хочу прочитать и обработать после преобразования его в представительный объект

Я попытался загрузить его с помощью RDD и DataSet в Java Spark, но в обоих случаях я ' m не может преобразовать в требуемый объект

As DataSet

Dataset<MyClass> input = sparkSession.read().format("com.databricks.spark.avro").load(inputPath)
                .as(Encoders.bean(MyClass.class)); 

Это не удается с ошибкой "Не может иметь циклические ссылки в классе бина, но получил циклическую ссылку класса класса org. apache .avro.Schema "

Как RDD

JavaRDD<String> input = sparkContext.textFile(inputPath);

Как преобразовать этот объект RDD в объект RDD или объект Dataset?

Я довольно новичок в этом, так что извините, если я что-то упускаю из-за c, но не могу найти рабочее решение.

1 Ответ

0 голосов
/ 25 января 2020

Это решается с помощью SparkAvroLoader из https://github.com/CeON/spark-utils

...