Каковы эффективные способы очистки финансовых данных (Open High Low Close)? - PullRequest
0 голосов
/ 29 мая 2020

У меня есть несколько фреймов данных Timeseries, которые похожи на разные активы.

Проблема в том, что в данных есть дыры (которых нет на других активах).

Вопрос: Какие есть качественные способы очистки данных, чтобы я мог заполнить недостающие строки чем-то близким к реальности?

дополнительная информация:

Мои первые идеи:

  1. LSTM, который предсказывает недостатки (проблема: я мог обучать его только на последовательностях строк без дыр -> смещения)

  2. ARIMA (нет идея, только что слышал об этом)

  3. среднее значение после и до (-> unrealisti c и здесь не учитываются выбросы и выбросы)

  4. какие подходы лучше? (удаление не является вариантом)

Вот некоторые примерные данные:

(... которые я только что написал вручную в качестве примера, цены указаны sh но просто чтобы показать отверстия как значения NaN.)

df1
                         Open            High          Low        Close       
Time                                                          
2014-10-10 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-13 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-14 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-15 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-16 00:00:00      1.12345      1.12345      1.12345      1.12345
                      ...       ...  ...            ...            ...
2016-02-23 16:00:00      1.12345      1.12345      1.12345      1.12345
2016-02-23 17:00:00      1.12345      1.12345      1.12345      1.12345 
2016-02-23 18:00:00      1.12345      1.12345      1.12345      1.12345
2016-02-23 19:00:00          NaN          NaN          NaN          NaN
2016-02-23 20:00:00      1.12345      1.12345      1.12345      1.12345

df2
                         Open                    High              Low            Close       
Time                                                          
2014-10-10 00:00:00      28391.12345      28391.12352      28391.12332      28391.12347
2014-10-13 00:00:00      28391.12348      28391.12358      28391.12340      28391.12350
2014-10-14 00:00:00              NaN              NaN              NaN              NaN
2014-10-15 00:00:00      28391.12350      28391.12354      28391.12344      28391.12353
2014-10-16 00:00:00      28391.12350      28391.12354      28391.12344      28391.12353
                      ...       ...  ...            ...            ...
2016-02-23 16:00:00      28391.30000      28391.30000      28391.10000      28391.10000
2016-02-23 17:00:00      28391.10000      28391.50000      28391.09000      28391.40000
2016-02-23 18:00:00      28391.12345      28391.12345      28391.12345      28391.12345
2016-02-23 19:00:00      28391.12345      28391.12345      28391.12345      28391.12345
2016-02-23 20:00:00      28391.12345      28391.12345      28391.12345      28391.12345

1 Ответ

0 голосов
/ 07 июня 2020

Здесь вы задали 2 вопроса:

1) очистка данных: вы должны проверить, нет ли сделок с отсутствующими точными датами. т.е. это могут быть праздники. Проверка с другими активами может не работать, если они не используют тот же торговый календарь и не имеют такой же ликвидности. Имейте в виду, что не все финансовые рынки торгуются с понедельника по пятницу.

2) Лучшая модель: вам нужно провести некоторые исследования и разработки, имея в виду эталонный тест, чтобы найти то, что подойдет вам. Хорошая модель, предсказывающая закрытие, может плохо сказаться на предсказании объема.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...