У меня есть этот сценарий.Мы должны предоставить функциональность, которая принимает любой тип RDD
, с обобщенной нотацией, которую можно сказать RDD[T]
, а также сериализацию и сохранение в HDFS с использованием Avro DataFile
.
Остерегайтесь того, что СДР может иметьчто угодно, поэтому функциональность должна быть общей для данного типа СДР, например, RDD[(String, AnyBusinessObject)]
o RDD[(String, Date, OtherBusinessObject)]
.
Вопрос: как мы можем вывести схему Avro и предоставить Сериализация Avro для какого-либо типа класса, чтобы сохранить его как файл данных Avro?
Функциональность на самом деле уже создана, но она использует Сериализация Java , это, очевидно, приводит к штрафу в виде пространства и времени, поэтому мы хотели бы реорганизовать его.Мы не можем использовать DataFrames.