Я хочу прочитать некоторые данные из Рadoop напрямую из spark worker:
Итак, в программе spark у меня есть конфигурация hadoop:
val configuration = session.sparkContext.hadoopConfiguration
Но я не могу использовать ее на рабочем месте, потому что это не такSerializable
:
spark.sparkContext.parallelize(paths).mapPartitions(paths => {
for (path <- paths) yield {
//for example, read the parquet footer
val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
footer.getFileMetaData.getSchema.getName
}
})
приводит к
object not serializable (class: org.apache.hadoop.conf.Configuration...