pyspark - вызов распараллеливания с большим набором данных занимает вечность - PullRequest
0 голосов
/ 03 января 2019

Я пытаюсь вызвать распараллеливание со списком размером приблизительно 100, когда размер всего списка приблизительно равен 1G.

Вызов параллелизации падает из-за нехватки памяти, связанной с пространством кучи Java.

У меня два вопроса, возможно ли решить эту конкретную проблему? все данные не слишком велики, 1G не кажется чем-то невозможным. Должен ли я просто изменить размер памяти в файле конфигурации или что-то подобное?

Второй вопрос - если это невозможно, я могу создать список СДР, когда каждый из них создается с использованием подсписка исходного списка. поэтому, если мой размер списка равен 100, я могу создать 10 RDD, каждый из которых создается с использованием подсписка из 10 объектов.

После этого возможно ли как-то вызвать функцию «map» для этих RDD одновременно? Я не хочу создавать цикл for и ждать, пока каждый СДР завершит свой расчет, прежде чем переходить к другому.

Мне не нужно какое-то соединение, все, что мне нужно, это карта -> collect ()

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...