Почему groupBy () намного быстрее, чем Different () в pyspark? - PullRequest
0 голосов
/ 11 сентября 2018

Я видел много улучшений производительности в моем коде pyspark, когда я заменил distinct() на фрейме данных spark на groupBy().Но я не смог понять причину этого.Намерение состояло в том, чтобы удалить дубликаты уровня строки из фрейма данных.

Я пытался найти в Google реализацию groupBy() и distinct() в pyspark, но не смог ее найти.

Можеткто-нибудь объяснит или укажет мне правильное направление для объяснения?

1 Ответ

0 голосов
/ 11 сентября 2018
Реализация

Different () проверяет все столбцы и, если две или более строки полностью совпадают, сохраняют первую строку. Я думаю, что это главная причина, почему отличаться так медленно.

Проверьте эту тему тоже.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...