Я решаю проблему регрессии.Для этого я сначала скопировал данные и применил регрессионную модель к каждому кластеру.Теперь я хочу реализовать другую модель регрессии, которая будет принимать прогнозируемые выходные данные каждого кластера как функцию и выводить агрегированное прогнозируемое значение.
Я уже реализовал модель кластеризации и регрессии в pyspark.Но я не могу окончательно извлечь выходные данные каждого кластера как функцию для ввода в другую регрессионную модель.
Как можно эффективно добиться этого преобразования в pyspark (предпочтительно) или pandas?
Текущий кадр данных:
date cluster predVal actual
31-03-2019 0 14 13
31-03-2019 1 24 15
31-03-2019 2 13 10
30-03-2019 0 14 13
30-03-2019 1 24 15
30-03-2019 2 13 10
Требуемый кадр данных
date predVal0 predVal1 predVal2 actual
31-03-2019 14 24 13 38 // 13+15+10
30-03-2019 14 24 13 38 // 13+15+10