Question

Я читаю довольно много данных (2.3TB) в фрейм данных искры. Все файлы CSV подготовлены для модели прогнозирования.

После загрузки мы используем временное представление для хранения

dSales = spark.read.option("delimiter",",").option("header", "true").option("inferSchema", "true").csv("/mnt/" + sourceMountName + "/")
dSales.createOrReplaceTempView("dSales")

После этого мы создаем несколько других таблиц с объединениями и записываем их все в базу данных. Эти таблицы используются в PowerBI.

У меня вопрос: как я могу получить этот большой объем данных Sales и Tempview из памяти, как только все будет обработано?

Удваивает ли saveAsTable память?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Удваивает ли saveAsTable память?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы