Невозможно уменьшить количество задач в Pyspark - PullRequest
0 голосов
/ 29 мая 2020

Я не могу уменьшить количество задач. Spark всегда показывает 200 задач в пользовательском интерфейсе. Я не уверен, но это из-за минимального количества разделов по умолчанию при чтении данных? Я пробовал все параметры, такие как numPartitions, partitions, minPartitions в моей команде, упомянутой ниже, но ни один из них не работал, и искра выдала ошибку, такую ​​как TypeError: csv () получил неожиданный аргумент ключевого слова «разделы». Я использую spark2. Пожалуйста помогите. Извините, я не могу отформатировать код, указанный ниже.

df_ord = spark.read.csv(props.get(env, 'input.dir') + "/orders", header=False,inferSchema=True,**numPartitions=10**) \
              .toDF("ord_id", "ord_dt", "cust_id", "ord_status")

1 Ответ

0 голосов
/ 29 мая 2020

Spark имеет свойство по умолчанию spark. sql .shuffle.partitions, которое отвечает за разделы. Значение по умолчанию - 200, поэтому вы видите 200 разделов в пользовательском интерфейсе.

Чтобы изменить это, вы можете передать conf при отправке задания или использовать команду ниже

spark.conf.set("spark.sql.shuffle.partitions", 100)

В качестве альтернативы вы можете используйте повторное разделение или объединение, чтобы уменьшить количество разделов в соответствии с вашими требованиями.

Ссылки: https://spark.apache.org/docs/latest/sql-performance-tuning.html

...