Question

Я видел много улучшений производительности в моем коде pyspark, когда я заменил distinct() на фрейме данных spark на groupBy().Но я не смог понять причину этого.Намерение состояло в том, чтобы удалить дубликаты уровня строки из фрейма данных.

Я пытался найти в Google реализацию groupBy() и distinct() в pyspark, но не смог ее найти.

Можеткто-нибудь объяснит или укажет мне правильное направление для объяснения?

Aron Asztalos · Answer 1 · 11 сентября 2018

Реализация

Different () проверяет все столбцы и, если две или более строки полностью совпадают, сохраняют первую строку. Я думаю, что это главная причина, почему отличаться так медленно.

Проверьте эту тему тоже.

Почему groupBy () намного быстрее, чем Different () в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему groupBy () намного быстрее, чем Different () в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов