У меня есть несколько фреймов данных Timeseries, которые похожи на разные активы.
Проблема в том, что в данных есть дыры (которых нет на других активах).
Вопрос: Какие есть качественные способы очистки данных, чтобы я мог заполнить недостающие строки чем-то близким к реальности?
дополнительная информация:
Мои первые идеи:
LSTM, который предсказывает недостатки (проблема: я мог обучать его только на последовательностях строк без дыр -> смещения)
ARIMA (нет идея, только что слышал об этом)
среднее значение после и до (-> unrealisti c и здесь не учитываются выбросы и выбросы)
какие подходы лучше? (удаление не является вариантом)
Вот некоторые примерные данные:
(... которые я только что написал вручную в качестве примера, цены указаны sh но просто чтобы показать отверстия как значения NaN.)
df1
Open High Low Close
Time
2014-10-10 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-13 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-14 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-15 00:00:00 1.12345 1.12345 1.12345 1.12345
2014-10-16 00:00:00 1.12345 1.12345 1.12345 1.12345
... ... ... ... ...
2016-02-23 16:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 17:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 18:00:00 1.12345 1.12345 1.12345 1.12345
2016-02-23 19:00:00 NaN NaN NaN NaN
2016-02-23 20:00:00 1.12345 1.12345 1.12345 1.12345
df2
Open High Low Close
Time
2014-10-10 00:00:00 28391.12345 28391.12352 28391.12332 28391.12347
2014-10-13 00:00:00 28391.12348 28391.12358 28391.12340 28391.12350
2014-10-14 00:00:00 NaN NaN NaN NaN
2014-10-15 00:00:00 28391.12350 28391.12354 28391.12344 28391.12353
2014-10-16 00:00:00 28391.12350 28391.12354 28391.12344 28391.12353
... ... ... ... ...
2016-02-23 16:00:00 28391.30000 28391.30000 28391.10000 28391.10000
2016-02-23 17:00:00 28391.10000 28391.50000 28391.09000 28391.40000
2016-02-23 18:00:00 28391.12345 28391.12345 28391.12345 28391.12345
2016-02-23 19:00:00 28391.12345 28391.12345 28391.12345 28391.12345
2016-02-23 20:00:00 28391.12345 28391.12345 28391.12345 28391.12345