Использование конфигурации hadoop у искрового работника - PullRequest
1 голос
/ 09 октября 2019

Я хочу прочитать некоторые данные из Рadoop напрямую из spark worker:

Итак, в программе spark у меня есть конфигурация hadoop: val configuration = session.sparkContext.hadoopConfiguration Но я не могу использовать ее на рабочем месте, потому что это не такSerializable:

spark.sparkContext.parallelize(paths).mapPartitions(paths => {
      for (path <- paths) yield {
        //for example, read the parquet footer
        val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
        footer.getFileMetaData.getSchema.getName
      }
    })

приводит к

object not serializable (class: org.apache.hadoop.conf.Configuration...

1 Ответ

0 голосов
/ 09 октября 2019

Я не знаю никакого решения использовать объект конфигурации в mapPartition. обратитесь к этому решению , вам нужно вручную переписать свой conf в mapPartition.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...