Удваивает ли saveAsTable память? - PullRequest
0 голосов
/ 18 апреля 2019

Я читаю довольно много данных (2.3TB) в фрейм данных искры. Все файлы CSV подготовлены для модели прогнозирования.

После загрузки мы используем временное представление для хранения

dSales = spark.read.option("delimiter",",").option("header", "true").option("inferSchema", "true").csv("/mnt/" + sourceMountName + "/")
dSales.createOrReplaceTempView("dSales")

После этого мы создаем несколько других таблиц с объединениями и записываем их все в базу данных. Эти таблицы используются в PowerBI.

У меня вопрос: как я могу получить этот большой объем данных Sales и Tempview из памяти, как только все будет обработано?

...