Я пытаюсь вызвать распараллеливание со списком размером приблизительно 100, когда размер всего списка приблизительно равен 1G.
Вызов параллелизации падает из-за нехватки памяти, связанной с пространством кучи Java.
У меня два вопроса, возможно ли решить эту конкретную проблему? все данные не слишком велики, 1G не кажется чем-то невозможным. Должен ли я просто изменить размер памяти в файле конфигурации или что-то подобное?
Второй вопрос - если это невозможно, я могу создать список СДР, когда каждый из них создается с использованием подсписка исходного списка.
поэтому, если мой размер списка равен 100, я могу создать 10 RDD, каждый из которых создается с использованием подсписка из 10 объектов.
После этого возможно ли как-то вызвать функцию «map» для этих RDD одновременно?
Я не хочу создавать цикл for и ждать, пока каждый СДР завершит свой расчет, прежде чем переходить к другому.
Мне не нужно какое-то соединение, все, что мне нужно, это карта -> collect ()
Спасибо!