Почему RDD to JSON удаляет фактическое упорядочение данных? - PullRequest
0 голосов
/ 13 февраля 2019

Я пытаюсь создать JSON из моего фрейма данных pyspark.Я вижу в моем фрейме данных данные сортируются правильно, но при использовании toJSON сортировка не отражается в объекте JSON.Не могли бы вы помочь

Мой Dataframe выглядит следующим образом:

enter image description here

Вот что происходит, когда я использую toJSON

enter image description here

1 Ответ

0 голосов
/ 13 февраля 2019

Поскольку spark работает в распределенном режиме, и записи в основном распределяются по рабочим узлам, когда мы выполняем сбор данных, эти записи передаются по сети на узел драйвера, который не обязательно должен быть в том же порядке.Упорядочение их по некоторому ключу потребует дополнительной обработки.

...