Я видел много улучшений производительности в моем коде pyspark, когда я заменил distinct()
на фрейме данных spark на groupBy()
.Но я не смог понять причину этого.Намерение состояло в том, чтобы удалить дубликаты уровня строки из фрейма данных.
Я пытался найти в Google реализацию groupBy()
и distinct()
в pyspark, но не смог ее найти.
Можеткто-нибудь объяснит или укажет мне правильное направление для объяснения?