Question

У меня есть несколько фреймов данных Timeseries, которые похожи на разные активы.

Проблема в том, что в данных есть дыры (которых нет на других активах).

Вопрос: Какие есть качественные способы очистки данных, чтобы я мог заполнить недостающие строки чем-то близким к реальности?

дополнительная информация:

Мои первые идеи:

LSTM, который предсказывает недостатки (проблема: я мог обучать его только на последовательностях строк без дыр -> смещения)
ARIMA (нет идея, только что слышал об этом)
среднее значение после и до (-> unrealisti c и здесь не учитываются выбросы и выбросы)
какие подходы лучше? (удаление не является вариантом)

Вот некоторые примерные данные:

(... которые я только что написал вручную в качестве примера, цены указаны sh но просто чтобы показать отверстия как значения NaN.)

df1
                         Open            High          Low        Close       
Time                                                          
2014-10-10 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-13 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-14 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-15 00:00:00      1.12345      1.12345      1.12345      1.12345
2014-10-16 00:00:00      1.12345      1.12345      1.12345      1.12345
                      ...       ...  ...            ...            ...
2016-02-23 16:00:00      1.12345      1.12345      1.12345      1.12345
2016-02-23 17:00:00      1.12345      1.12345      1.12345      1.12345 
2016-02-23 18:00:00      1.12345      1.12345      1.12345      1.12345
2016-02-23 19:00:00          NaN          NaN          NaN          NaN
2016-02-23 20:00:00      1.12345      1.12345      1.12345      1.12345

df2
                         Open                    High              Low            Close       
Time                                                          
2014-10-10 00:00:00      28391.12345      28391.12352      28391.12332      28391.12347
2014-10-13 00:00:00      28391.12348      28391.12358      28391.12340      28391.12350
2014-10-14 00:00:00              NaN              NaN              NaN              NaN
2014-10-15 00:00:00      28391.12350      28391.12354      28391.12344      28391.12353
2014-10-16 00:00:00      28391.12350      28391.12354      28391.12344      28391.12353
                      ...       ...  ...            ...            ...
2016-02-23 16:00:00      28391.30000      28391.30000      28391.10000      28391.10000
2016-02-23 17:00:00      28391.10000      28391.50000      28391.09000      28391.40000
2016-02-23 18:00:00      28391.12345      28391.12345      28391.12345      28391.12345
2016-02-23 19:00:00      28391.12345      28391.12345      28391.12345      28391.12345
2016-02-23 20:00:00      28391.12345      28391.12345      28391.12345      28391.12345

Maged · Answer 1 · 07 июня 2020

Здесь вы задали 2 вопроса:

1) очистка данных: вы должны проверить, нет ли сделок с отсутствующими точными датами. т.е. это могут быть праздники. Проверка с другими активами может не работать, если они не используют тот же торговый календарь и не имеют такой же ликвидности. Имейте в виду, что не все финансовые рынки торгуются с понедельника по пятницу.

2) Лучшая модель: вам нужно провести некоторые исследования и разработки, имея в виду эталонный тест, чтобы найти то, что подойдет вам. Хорошая модель, предсказывающая закрытие, может плохо сказаться на предсказании объема.

Каковы эффективные способы очистки финансовых данных (Open High Low Close)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каковы эффективные способы очистки финансовых данных (Open High Low Close)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы