Как интерполировать столбец для разных временных точек в Pyspark - PullRequest
0 голосов
/ 18 апреля 2020

Я новичок в pyspark, не могли бы вы помочь мне разобраться с приведенной ниже проблемой (прогнозируемое значение Number, где его null)

У меня есть общее количество 37 временных точек, которые распределены от 1d до 60y (1d,2d,1w,2w,1m,2m,1y,2y,10y...60y.) Для простоты я включил лишь несколько из них в нижеприведенный DataFrame. Мне нужно реализовать масштабируемое решение для линейной интерполяции, где нагрузка может быть распределена между всеми искровыми узлами.

+----+------+----+
|Name|Number|days|
+----+------+----+
|   A|   100|   1|
|   A|   200|   2|
|   A|  null|   5|
|   A|  null|   7|
|   A|  null|  14|
|   A|  null|  21|
|   A|  null|  30|
|   A|  null|  60|
|   B|   300|   1|
|   B|   500|   3|
|   B|  null|   5|
|   B|  null|   7|
|   B|  null|  14|
|   B|  null|  21|
|   B|  null|  30|
|   B|  null|  60|
|   C|  null|   1|
|   C|   600|   2|
|   C|  null|   5|
|   C|  null|   7|
|   C|  null|  14|
|   C|  null|  21|
|   C|  null|  30|
|   C|  null|  60|
+----+------+----+

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...