Предполагая, что у меня есть RDD. Я устанавливаю количество разделов RDD равным 5. Я хочу выбрать 10 элементов из каждого раздела и хочу сохранить их в переменной с именем var1 , а позже я хочу транслировать var1 . Как я могу добиться этого?
Если я использую это, это приведет к огромному перемешиванию данных, чтобы я мог использовать сбор. Я должен хранить выбранные элементы из каждого раздела в переменной. Также учтите, что это итерационная проблема, и я должен транслировать после X указанных итераций.