Переходя к вашему вопросу В вашем DF
нет Action
. Так что он ничего не выполнит.
Но гипотетически я беру пример, который вы выполнили cache
df.cache().storageLevel
Публикация, в которой вы выполнили некоторые count action
.
Caching/persistence
- это ленивый при использовании с Dataset API
, поэтому вы должны запускать caching
с помощью count operator
или аналогичного, которое, в свою очередь, отправляет задание Spark .
В вашем случае даже после union
нет action
, если вы использовали действие для write into disk
.
Да. Только действия (например, сохранение во внешнем хранилище) могут вызвать сохранение для будущего повторного использования.
вы можете проверить Storage tab in web UI
об этом.