Как избежать перетасовки данных при делении данных с помощью rdd.sample в Apache Spark? - PullRequest
0 голосов
/ 08 апреля 2019

Я пытался разделить PipelinedRDD с именем «data», который я создал, на несколько подмножеств. Однако, когда я пытаюсь использовать data.sample, искра перемешивает данные и разделяет их. Мне нужно сохранить последовательность моих данных.

Я пытался слиться с shuffle = false, однако мне не помогли.

subset = data.sample (False, subset_fraction) .coalesce (10);

Требуется подмножество, чтобы иметь подмножества данных в исходной последовательности

Пример: rdd: [1,2,3,4,5,6,7,8,9]

и мне нужно 3 подмножества данных (также rdd). Я должен получить подмножества как: [1,2,3] [4,5,6] [7,8,9]

...