Я пытался разделить PipelinedRDD с именем «data», который я создал, на несколько подмножеств. Однако, когда я пытаюсь использовать data.sample, искра перемешивает данные и разделяет их. Мне нужно сохранить последовательность моих данных.
Я пытался слиться с shuffle = false, однако мне не помогли.
subset = data.sample (False, subset_fraction) .coalesce (10);
Требуется подмножество, чтобы иметь подмножества данных в исходной последовательности
Пример: rdd: [1,2,3,4,5,6,7,8,9]
и мне нужно 3 подмножества данных (также rdd). Я должен получить подмножества как: [1,2,3] [4,5,6] [7,8,9]