У меня есть путь HDFS, который содержит данные, записанные объектом Java, скажем, Obj1, я хочу прочитать этот путь в моем коде Scala spark и прочитать его как DataSet из Obj1.
Один из способов сделать это - прочитать путь HDFS, наложить на него карту, чтобы создать новый объект Scala, соответствующий Obj1. Есть ли более простой способ сделать это, как мы знаем в java, мы можем сделать что-то вроде:
Dataset<Obj1> obj1DataSet = sparkSession.read().parquet("path").as(Encoders.bean(Obj1.class));