Question

У меня есть фрейм данных Pyspark с 1,6 миллионами записей.Я отсортировал его, а затем сгруппировал, надеясь, что порядок сортировки будет сохранен, чтобы я мог выбрать последнее значение отсортированного столбца в группе по.Однако, похоже, что порядок сортировки не обязательно сохраняется во время группы.Должен ли я использовать окно pyspark вместо сортировки и группы?

output_data = input_data.sort(F.col("id"))\

                .sort(F.col("date").asc())\

                .groupBy("id").agg(F.last("date").alias("date"))

Сортировка, а затем группировка по фрейму данных. Сохраняется ли порядок сортировки после группировки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Сортировка, а затем группировка по фрейму данных. Сохраняется ли порядок сортировки после группировки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы