Вопрос был задан в другой ветке, но, похоже, моя проблема не подходит ни к одному из них.
Я использую Spark 2.4.4 в локальном режиме, я установил мастер на local[16]
для использования 16 ядер. Я также вижу в веб-интерфейсе 16 ядер, которые были выделены.
Я создаю фрейм данных, импортирующий csv-файл размером около 8 МБ, примерно так:
val df = spark.read.option("inferSchema", "true").option("header", "true").csv("Datasets/globalpowerplantdatabasev120/*.csv")
наконец я печатаю количество разделов, датафрейм состоит из:
df.rdd.partitions.size
res5: Int = 2
Ответ - 2.
Почему? Насколько я читаю, количество разделов зависит от количества исполнителей, которое по умолчанию установлено равным количеству ядер (16).
Я попытался установить число esectors, используя spark.default.Parallelism = 4
и / или spark.executor.instances = 4
и запустили новый искровой объект, но по количеству разделов ничего не изменилось.
Есть предложения?