Перераспределение Pyspark (num_of_column_levels, column) более одного уровня столбца в каждом разделе, который должен быть только один - PullRequest
0 голосов
/ 11 апреля 2020

Есть некоторая дата из 100 городов, и я хочу запустить функцию 'for_each_city' для всех городов одновременно. Я запустил следующие коды, но на самом деле эту функцию выполняли менее 100 разделов, а некоторые разделы содержали данные из более чем одного города, который должен был быть только один. (Я установил параметр spark.executor.instances больше 100).

Как это может быть?

df1 = df.repartition(100, "city_name").\
    rdd.mapPartitions(for_each_city).toDF(output_schema)

...