как это сделать в spark, то есть повторять группы и сохранять каждую группу как файл одновременно? - PullRequest
0 голосов
/ 17 января 2019

У меня есть огромные данные, которые накапливаются каждый год ежеквартально.Эти данные немного искажаются, когда я пытаюсь поместить все данные в один фрейм данных, перераспределяя их в («год», «квартал»), это перетасовывает много данных о разливе диска, что замедляет мою работу, болееодин исполнитель работает 80% времени.

Поэтому я решил 1) получить отдельные группы данных, сгруппированные по годам и кварталам.2) итерируйте / зацикливайте этот отдельный фрейм данных по группам, выбирайте группу данных, где = год группы, сохраняйте этот фрейм данных / накапливайте как файл итерации партера, продолжайте итерацию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...