Вывод пропущенных значений из корреляции с другим столбцом - PullRequest
0 голосов
/ 11 марта 2020

Итак, у меня есть пространственно-временная проблема. У меня есть 2 набора данных в одном месте (геоха sh точность = 7). Один из них завершен (без нуля), другой не так много. Пример:

date        time    d1  d2
2019-12-09 00:00:00 3.0 NaN
2019-12-09 01:00:00 2.0 NaN
2019-12-09 04:00:00 1.0 NaN
2019-12-09 07:00:00 2.0 NaN
2019-12-09 08:00:00 3.0 NaN
2019-12-09 09:00:00 2.0 NaN
2019-12-09 10:00:00 2.0 NaN
2019-12-09 11:00:00 5.0 NaN
2019-12-09 12:00:00 3.0 NaN
2019-12-09 13:00:00 3.0 NaN
2019-12-09 14:00:00 1.0 NaN
2019-12-09 15:00:00 5.0 150.0
2019-12-09 16:00:00 5.0 534.0
2019-12-09 17:00:00 7.0 511.0
2019-12-09 18:00:00 5.0 558.0
2019-12-09 19:00:00 3.0 517.0
2019-12-09 20:00:00 3.0 522.0
2019-12-09 21:00:00 7.0 590.0
2019-12-09 22:00:00 5.0 582.0
2019-12-09 23:00:00 1.0 338.0

Сравнение наборов данных временных рядов

Проблема в том, что d1 занижает отчетность, тогда как d2 сообщать правильно, но не последовательно. Я пытаюсь вывести d2 на основе тренда d1, но с объемом d2 . .corr() за трехмесячный период выглядит следующим образом:

    d1          d2
d1  1.000000    0.632092
d2  0.632092    1.000000

До сих пор я пробовал:

  • Интерполировать
  • Скользящее среднее
  • Pad

Но я не доволен результатами.

Я не совсем уверен, что то, что я хочу, является правдоподобным, здесь есть пробел в знаниях. Я потратил на это solid неделю и надеюсь, что кто-нибудь укажет мне правильное направление или предоставит материал для чтения.

Если эту проблему невозможно решить с помощью манипулирования данными, пожалуйста, посоветуйте подходящую модель ML, которая может мне помочь.

Оцените время ваших ребят.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...