Сортировка, а затем группировка по фрейму данных. Сохраняется ли порядок сортировки после группировки? - PullRequest
0 голосов
/ 16 мая 2019

У меня есть фрейм данных Pyspark с 1,6 миллионами записей.Я отсортировал его, а затем сгруппировал, надеясь, что порядок сортировки будет сохранен, чтобы я мог выбрать последнее значение отсортированного столбца в группе по.Однако, похоже, что порядок сортировки не обязательно сохраняется во время группы.Должен ли я использовать окно pyspark вместо сортировки и группы?

output_data = input_data.sort(F.col("id"))\

                .sort(F.col("date").asc())\

                .groupBy("id").agg(F.last("date").alias("date"))
...