Question

Есть некоторая дата из 100 городов, и я хочу запустить функцию 'for_each_city' для всех городов одновременно. Я запустил следующие коды, но на самом деле эту функцию выполняли менее 100 разделов, а некоторые разделы содержали данные из более чем одного города, который должен был быть только один. (Я установил параметр spark.executor.instances больше 100).

Как это может быть?

df1 = df.repartition(100, "city_name").\
    rdd.mapPartitions(for_each_city).toDF(output_schema)

Перераспределение Pyspark (num_of_column_levels, column) более одного уровня столбца в каждом разделе, который должен быть только один

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Перераспределение Pyspark (num_of_column_levels, column) более одного уровня столбца в каждом разделе, который должен быть только один

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы