Я новичок в pyspark, не могли бы вы помочь мне разобраться с приведенной ниже проблемой (прогнозируемое значение Number
, где его null
)
У меня есть общее количество 37
временных точек, которые распределены от 1d
до 60y
(1d,2d,1w,2w,1m,2m,1y,2y,10y...60y.)
Для простоты я включил лишь несколько из них в нижеприведенный DataFrame. Мне нужно реализовать масштабируемое решение для линейной интерполяции, где нагрузка может быть распределена между всеми искровыми узлами.
+----+------+----+
|Name|Number|days|
+----+------+----+
| A| 100| 1|
| A| 200| 2|
| A| null| 5|
| A| null| 7|
| A| null| 14|
| A| null| 21|
| A| null| 30|
| A| null| 60|
| B| 300| 1|
| B| 500| 3|
| B| null| 5|
| B| null| 7|
| B| null| 14|
| B| null| 21|
| B| null| 30|
| B| null| 60|
| C| null| 1|
| C| 600| 2|
| C| null| 5|
| C| null| 7|
| C| null| 14|
| C| null| 21|
| C| null| 30|
| C| null| 60|
+----+------+----+