Spark - Как перенести сохраненные данные с диска в кэш? - PullRequest
0 голосов
/ 10 апреля 2020

При выполнении анализа данных adho c я сталкиваюсь с довольно простым, но разочаровывающим образом:

Вы кэшируете rdd1 в памяти, затем кэшируете rdd2 в памяти, что выталкивает rdd1 в диск из-за ограничений памяти. Если бы вы потеряли самообладание rdd2, можно ли в любом случае сказать, чтобы спарк переместил rdd1 обратно в память?

1 Ответ

0 голосов
/ 10 апреля 2020

Я не думаю, что возможно дать команду искре вернуть rdd1 в память. Но в следующий раз, когда к rdd1 обращаются, он загружается в память, учитывая, что вы используете уровень персистентности MEMORY_AND_DISK (в противном случае он пересчитывается).

Если вы хотите уменьшить пространство и нагрузку в памяти, рассмотрите возможность использования MEMORY_AND_DISK_SER, это будет сериализовать ваши объекты и хранить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...