У меня есть временной ряд данных о скорости ветра от большого количества метеостанций. Несколько станций содержат повторяющиеся последовательности из 23 нулей и числа, например
Station_code 4726631C 4726A602 4726C3E4
Datetime
2015-03-01 00:00:00 0.0 0.0 0.0
2015-03-01 01:00:00 0.0 0.0 0.0
2015-03-01 02:00:00 0.0 0.0 0.0
2015-03-01 03:00:00 0.0 0.0 0.0
2015-03-01 04:00:00 0.0 0.0 0.0
2015-03-01 05:00:00 0.0 0.0 0.0
2015-03-01 06:00:00 0.0 0.0 0.0
2015-03-01 07:00:00 NaN 0.0 0.0
2015-03-01 08:00:00 0.0 0.0 0.0
2015-03-01 09:00:00 0.0 0.0 0.0
2015-03-01 10:00:00 0.0 0.0 0.0
2015-03-01 11:00:00 0.0 0.0 0.0
2015-03-01 12:00:00 2.4 2.7 1.9<<
2015-03-01 13:00:00 0.0 0.0 0.0
2015-03-01 14:00:00 0.0 0.0 0.0
2015-03-01 15:00:00 0.0 0.0 0.0
2015-03-01 16:00:00 0.0 0.0 0.0
2015-03-01 17:00:00 0.0 0.0 0.0
2015-03-01 18:00:00 0.0 0.0 0.0
2015-03-01 19:00:00 0.0 0.0 0.0
2015-03-01 20:00:00 0.0 0.0 0.0
2015-03-01 21:00:00 0.0 0.0 0.0
2015-03-01 22:00:00 NaN 0.0 0.0
2015-03-01 23:00:00 0.0 0.0 NaN
2015-03-02 00:00:00 0.0 0.0 0.0
2015-03-02 01:00:00 0.0 0.0 0.0
2015-03-02 02:00:00 0.0 0.0 0.0
2015-03-02 03:00:00 0.0 0.0 0.0
2015-03-02 04:00:00 0.0 0.0 0.0
2015-03-02 05:00:00 0.0 0.0 0.0
2015-03-02 06:00:00 0.0 0.0 0.0
2015-03-02 07:00:00 0.0 0.0 0.0
2015-03-02 08:00:00 0.0 0.0 0.0
2015-03-02 09:00:00 0.0 0.0 0.0
2015-03-02 10:00:00 0.0 0.0 0.0
2015-03-02 11:00:00 0.0 0.0 0.0
2015-03-02 12:00:00 2.4 2.7 1.9<<
Чтобы сделать вещи немного более пряными, некоторые из нулей являются NaN, но полезно, чтобы число появлялось в час = 12:00. Повторяющаяся природа указывает, что это ошибочные данные, поэтому их нужно удалить.
Я думал что-то вроде:
if data at df.index.hour = 12 is preceded by 23 values where np.nanmean = 0 then make all values in sequence = np.nan
Но я новичок в python и не уверен, как перевести это в скрипт .
Заранее спасибо:)