Интерполировать почасовые данные на основе частоты времени данных из другого источника - PullRequest
0 голосов
/ 06 февраля 2019

Я ищу предложение интерполировать доступные данные с почасовой частотой на основе частоты времени другого источника данных.

Например:

У меня есть один кадр данных, содержащий измерения погоды с почасовой частотойкак указано ниже, и показания датчиков с интервалом от 4 до 5 минут прибл.Итак, я хочу преобразовать свои погодные измерения, основываясь на временной частоте считывания датчика из другого источника данных.

Могут ли панды использоваться для этой цели вместо pyspark?я знаю, что там есть некоторые особенности.Спасибо Измерение погоды:

+----------+----------------------+
|Wind_speed|Forecast_Time         |
+----------+----------------------+
|22        |2019-01-29T15:00:00+00|
|17        |2019-01-29T16:00:00+00|
|23        |2019-01-29T17:00:00+00|
|11        |2019-01-29T18:00:00+00|
|10        |2019-01-29T19:00:00+00|
+----------+----------------------+ 

Показания датчика:

+----------------------+-----------+------+
|DateTime              |Total count|Avail |
+----------------------+-----------+------+
|2019-01-29T15:24:02+00|45         |350   |
|2019-01-29T15:20:19+00|511        |710   |
|2019-01-29T15:24:02+00|131        |352   |
|2019-01-29T15:24:02+00|134        |376   |
|2019-01-29T15:24:02+00|69         |436   |
|2019-01-29T15:20:24+00|472        |935   |
|2019-01-29T15:24:06+00|138        |330   |
|2019-01-29T15:24:06+00|415        |749   |
|2019-01-29T15:29:02+00|45         |350   |
|2019-01-29T15:20:19+00|511        |710   |
+----------------------+-----------+------+

Результаты могут быть примерно такими:

+----------+----------------------+
|Wind_speed|Forecast_Time         |
+----------+----------------------+
|22        |2019-01-29T15:24:02+00|
|17        |2019-01-29T15:20:01+00|
|17        |2019-01-29T15:24:00+00|
|11        |2019-01-29T15:29:06+00|
|10        |2019-01-29T15:20:00+00|
+----------+----------------------+

1 Ответ

0 голосов
/ 08 февраля 2019

если вы знаете, как это сделать в пандах, просто создайте функцию и используйте pandas_udf

...