У меня есть фрейм данных Pyspark с 1,6 миллионами записей.Я отсортировал его, а затем сгруппировал, надеясь, что порядок сортировки будет сохранен, чтобы я мог выбрать последнее значение отсортированного столбца в группе по.Однако, похоже, что порядок сортировки не обязательно сохраняется во время группы.Должен ли я использовать окно pyspark вместо сортировки и группы?
output_data = input_data.sort(F.col("id"))\
.sort(F.col("date").asc())\
.groupBy("id").agg(F.last("date").alias("date"))