Эффективное управление памятью в Spark? - PullRequest
0 голосов
/ 27 февраля 2019

Существует ли определенный стандарт для эффективного управления памятью в Spark

Что если я в итоге создам пару DataFrames или RDD, а затем продолжу сокращать эти данные с помощью объединений и агрегаций ??

Будут ли эти DataFrames или RDD по-прежнему удерживать ресурсы до завершения сеанса или задания ??

1 Ответ

0 голосов
/ 27 февраля 2019

нет там нет.Время жизни основного объекта в Spark, который является СДР, определяется через его родословную.Когда ваша работа вызовет действие, весь DAG начнет выполняться.Если задание было выполнено успешно, Spark высвободит все зарезервированные ресурсы, в противном случае попытается повторно выполнить задачи, которые не были выполнены, и восстановить потерянные СДР на основе своего происхождения.

Пожалуйста, проверьте следующие ресурсы, чтобы ознакомиться с этими концепциями:

Что такое Lineage In Spark?

В чем разница между графиком RDD Lineage и направленным ациклическим графиком (DAG) в Spark?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...