Есть некоторая дата из 100 городов, и я хочу запустить функцию 'for_each_city' для всех городов одновременно. Я запустил следующие коды, но на самом деле эту функцию выполняли менее 100 разделов, а некоторые разделы содержали данные из более чем одного города, который должен был быть только один. (Я установил параметр spark.executor.instances больше 100).
Как это может быть?
df1 = df.repartition(100, "city_name").\
rdd.mapPartitions(for_each_city).toDF(output_schema)