Question

Я хочу прочитать некоторые данные из Рadoop напрямую из spark worker:

Итак, в программе spark у меня есть конфигурация hadoop: val configuration = session.sparkContext.hadoopConfiguration Но я не могу использовать ее на рабочем месте, потому что это не такSerializable:

spark.sparkContext.parallelize(paths).mapPartitions(paths => {
      for (path <- paths) yield {
        //for example, read the parquet footer
        val footer = ParquetFileReader.readFooter(configuration, new Path(path), ParquetMetadataConverter.NO_FILTER)
        footer.getFileMetaData.getSchema.getName
      }
    })

приводит к

object not serializable (class: org.apache.hadoop.conf.Configuration...

Franck Cussac · Answer 1 · 09 октября 2019

Я не знаю никакого решения использовать объект конфигурации в mapPartition. обратитесь к этому решению , вам нужно вручную переписать свой conf в mapPartition.

Использование конфигурации hadoop у искрового работника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование конфигурации hadoop у искрового работника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов