Я не могу уменьшить количество задач. Spark всегда показывает 200 задач в пользовательском интерфейсе. Я не уверен, но это из-за минимального количества разделов по умолчанию при чтении данных? Я пробовал все параметры, такие как numPartitions, partitions, minPartitions в моей команде, упомянутой ниже, но ни один из них не работал, и искра выдала ошибку, такую как TypeError: csv () получил неожиданный аргумент ключевого слова «разделы». Я использую spark2. Пожалуйста помогите. Извините, я не могу отформатировать код, указанный ниже.
df_ord = spark.read.csv(props.get(env, 'input.dir') + "/orders", header=False,inferSchema=True,**numPartitions=10**) \
.toDF("ord_id", "ord_dt", "cust_id", "ord_status")