как увеличить память при использовании spark и R - PullRequest
0 голосов
/ 06 декабря 2018

У меня есть таблица spark, в которой 40 миллионов записей и 100 переменных.Мне нужно прочитать данные в память R (as.data.frame), чтобы я мог использовать функции в определенном пакете, который не распространяется.

Каков наилучший способ размещения данных в памяти?я должен увеличить spark.executor.memory, или накладные расходы, или я должен изменить размер памяти в драйвере?

Я знаю, что если я использую Hive connection и dbgetquery (), я могу перенести данные в R, но я хочу иметь возможность выполнить подготовку данных с помощью Spark, а затем перенести данные в память без перезаписи моегоСтол в Улей.

...