Я читаю довольно много данных (2.3TB) в фрейм данных искры.
Все файлы CSV подготовлены для модели прогнозирования.
После загрузки мы используем временное представление для хранения
dSales = spark.read.option("delimiter",",").option("header", "true").option("inferSchema", "true").csv("/mnt/" + sourceMountName + "/")
dSales.createOrReplaceTempView("dSales")
После этого мы создаем несколько других таблиц с объединениями и записываем их все в базу данных. Эти таблицы используются в PowerBI.
У меня вопрос: как я могу получить этот большой объем данных Sales и Tempview из памяти, как только все будет обработано?