Размер кэша набора данных и размер кэша RDD с большой разницей - PullRequest
0 голосов
/ 27 августа 2018

Сначала я использую SparkSQL для чтения таблицы с двумя миллионами строк, а затем кеширую ее (DataSet).Во-вторых, выполните

JavaRDD javaRDD = dataset.javaRDD().cache();
В-третьих, используя javaRDD для создания DataFrame и кэшируйте его;Наконец, сделайте действие;Как показано на изображении, в Spark-UI указано, почему одни и те же данные имеют большую разницу в размере кэша? введите описание изображения здесь
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...