Где shuffle пишет магазин в Spark? - PullRequest
1 голос
/ 17 апреля 2020

Согласно Spark

«Произвольная запись» фактически означает сумму всех записанных сериализованных данных по всем исполнителям перед передачей (обычно в конце этапа)

Мой вопрос Где происходит случайная запись? Записывает ли все данные, которые будут перетасовываться, только на локальный диск? или он записывает все данные, которые будут перетасовываться только в оперативную память? или В зависимости от наличия ОЗУ записывает ли некоторую часть данных для перетасовки на диск, а некоторую часть в ОЗУ?

Пожалуйста, объясните

1 Ответ

0 голосов
/ 17 апреля 2020

Таким образом, по умолчанию искровое кеширование находится в памяти, и если данных недостаточно для размещения в памяти, оно будет перетекать на диск. Теперь, когда мы говорим о shuffle-data, который будет промежуточным результатом / выводом из mapper. По умолчанию искра будет хранить этот промежуточный вывод в памяти, но если не будет достаточно места, он будет хранить промежуточные данные на диске. Spark будет хранить эти данные в сериализованном формате, чтобы не приходилось каждый раз платить за десериализацию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...