Не ясно, какие виды расчетов вам необходимо выполнить.
mapPartitions
может обрабатывать каждый больший фрагмент, но внутри этого блока вы все равно будете использовать map
или другие операции для преобразования ваших данных.
Примечание. Однако если вы сравниваете Spark с Numpy, вы будете использовать операции DataFrame в SparkSQL, и все данные будут прозрачно перетасовываться между серверами.
Если у вас есть два DataFrames, вы, вероятно, присоединитесь к ним перед выполнением каких-либо операций.
За кулисами нет способа избежать просмотра каждого элемента, собираете ли вы, преобразовываете или иным образом собираете обратно в локальную коллекцию.