Question

Есть ли способ получить Hadoop FileSystem от Spark Executor при выполнении операции mapPartitions над кадром данных Spark?Если нет, то, по крайней мере, есть ли способ получить конфигурацию Hadoop для создания новой файловой системы Hadoop?

Примите во внимание, что HDFS имеет керберизацию.

Вариант использования будетчто-то вроде (псевдокод):

spark.sql("SELECT * FROM cities").mapPartitions{ iter =>
    iter.groupedBy(some-variable).foreach{ rows =>
        hadoopFS.write(rows)
    }
    TaskContext.getPartitionId
}

miguel0afd · Answer 1 · 06 июля 2018

Я нашел решение.Утилиты Spark содержат очень простой способ сериализации конфигурации hadoop: https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/util/SerializableConfiguration.scala

Как получить или создать клиент Hadoop от Spark Executor

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить или создать клиент Hadoop от Spark Executor

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы