Сначала я использую SparkSQL для чтения таблицы с двумя миллионами строк, а затем кеширую ее (DataSet).Во-вторых, выполните
JavaRDD javaRDD = dataset.javaRDD().cache();
В-третьих, используя javaRDD для создания DataFrame и кэшируйте его;Наконец, сделайте действие;Как показано на изображении, в Spark-UI указано, почему одни и те же данные имеют большую разницу в размере кэша?
введите описание изображения здесь