Apache spark shuffle: почему мы делаем повторную сортировку на стороне редуктора даже после сортировки на стороне отображения - PullRequest
1 голос
/ 17 марта 2019

В последнее время я хотел понять, как свечи используют сортировку в случайном порядке. Я обнаружил, что искра сортирует сторону картографа, а затем прибегает к тому же на стороне редуктора, используя сортировку Тимом.

Если мы уже сортируем на стороне картографа, почему мы не используем это место для повторной сортировки, учитывая, что сортировка стоит дорого?

Примечание: Tim sort берет отсортированный список для работы.

1 Ответ

0 голосов
/ 18 марта 2019

На стороне редуктора BlockStoreShuffleReader выбирает случайные данные из нескольких задач карты.Хотя задачи карты сортировали свои собственные данные, так как редуктор должен объединять данные из нескольких источников, он должен прибегнуть к комбинированной сортировке среди всех извлеченных данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...