Спарк df.cache () выполняется с нетерпением или лениво? - PullRequest
0 голосов
/ 11 июня 2018

Я использую pyspark в своей работе.В этой статье https://unraveldata.com/to-cache-or-not-to-cache/, говорится, что кеш не является действием.Однако когда я запускаю функцию кэширования на RDD, это занимает много времени.И пользовательский интерфейс spark показывает, что есть некоторые активируемые задания под названием cache at NativeMethodAccessorImpl.java:0.Так является ли кэш действием?

1 Ответ

0 голосов
/ 11 июня 2018

Кэш - это ленивое действие .Это означает, что при обращении к переменной, созданной из кэша, она будет вычислена.Таким образом, это показывает, что на это требуется время.

Когда для этого вызываются вычисления, все данные перемещаются в оперативную память.Как только данные доступны в оперативной памяти, выполняются вычисления.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...