PYSpark Dataframes кэширование и сохранение - PullRequest
0 голосов
/ 21 апреля 2020

Я понимаю разницу между .cache () и .persist (). Cache = In Memory и persist позволяет нам принять решение.

Мой вопрос заключается в том, что для действительно больших источников данных (10 ТБ +) будет ли сохранение лучше, чем заполнение памяти данными? Что произойдет, если память заполнится с помощью .cache ()? Работа провалилась? Потому что, если бы мой DF был> размером больше доступной памяти, что бы произошло?

Большое спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...