Как получить или создать клиент Hadoop от Spark Executor - PullRequest
0 голосов
/ 09 июня 2018

Есть ли способ получить Hadoop FileSystem от Spark Executor при выполнении операции mapPartitions над кадром данных Spark?Если нет, то, по крайней мере, есть ли способ получить конфигурацию Hadoop для создания новой файловой системы Hadoop?

Примите во внимание, что HDFS имеет керберизацию.

Вариант использования будетчто-то вроде (псевдокод):

spark.sql("SELECT * FROM cities").mapPartitions{ iter =>
    iter.groupedBy(some-variable).foreach{ rows =>
        hadoopFS.write(rows)
    }
    TaskContext.getPartitionId
}

1 Ответ

0 голосов
/ 06 июля 2018

Я нашел решение.Утилиты Spark содержат очень простой способ сериализации конфигурации hadoop: https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/util/SerializableConfiguration.scala

...