Перебирайте Spark Dataframe, сохраняйте результаты и используйте результаты на предыдущей итерации - PullRequest
0 голосов
/ 05 ноября 2019

Как я могу пройти через искровой фрейм данных, применить бизнес-логику и использовать результаты в следующей итерации. Я перемещаю скрипт из pandas / numpy в spark из-за объема данных, которые мы должны обработать в этой работе. У нас очень сложная бизнес-логика, и я смог ее запустить. У меня проблема в том, как перенести результаты из группы 1 ниже в группу 2 для использования. Кроме того, проблема не так проста, есть около 10 переменных, которые зависят от прошлой группы, которые будут использоваться в расчетах текущей группы. Я думал о том, может быть, потоковой передачи в группах и сохранения результатов во временную таблицу некоторых видов, а затем использовать результаты в следующем потоке? Не уверен, как это будет работать еще. Есть идеи?

enter image description here

Для дополнительного контекста:

У меня есть фрейм данных с тонной логики, реализованной в нем. Есть столбецот 1 до 20. Я определил тонну логики для группы 1. Мне нужно передать те же самые преобразования с проведенными расчетами в следующую группу 2 и так далее, и так далее. Можно ли передать кадр данных в функцию с выходами?

...