Очистка данных - удаление повторяющихся последовательностей из 23 нулей и чисел из pandas кадра данных - PullRequest
2 голосов
/ 13 февраля 2020

У меня есть временной ряд данных о скорости ветра от большого количества метеостанций. Несколько станций содержат повторяющиеся последовательности из 23 нулей и числа, например

Station_code    4726631C    4726A602    4726C3E4
Datetime            
2015-03-01 00:00:00     0.0     0.0     0.0
2015-03-01 01:00:00     0.0     0.0     0.0
2015-03-01 02:00:00     0.0     0.0     0.0
2015-03-01 03:00:00     0.0     0.0     0.0
2015-03-01 04:00:00     0.0     0.0     0.0
2015-03-01 05:00:00     0.0     0.0     0.0
2015-03-01 06:00:00     0.0     0.0     0.0
2015-03-01 07:00:00     NaN     0.0     0.0
2015-03-01 08:00:00     0.0     0.0     0.0
2015-03-01 09:00:00     0.0     0.0     0.0
2015-03-01 10:00:00     0.0     0.0     0.0
2015-03-01 11:00:00     0.0     0.0     0.0
2015-03-01 12:00:00     2.4     2.7     1.9<<
2015-03-01 13:00:00     0.0     0.0     0.0
2015-03-01 14:00:00     0.0     0.0     0.0
2015-03-01 15:00:00     0.0     0.0     0.0
2015-03-01 16:00:00     0.0     0.0     0.0
2015-03-01 17:00:00     0.0     0.0     0.0
2015-03-01 18:00:00     0.0     0.0     0.0
2015-03-01 19:00:00     0.0     0.0     0.0
2015-03-01 20:00:00     0.0     0.0     0.0
2015-03-01 21:00:00     0.0     0.0     0.0
2015-03-01 22:00:00     NaN     0.0     0.0
2015-03-01 23:00:00     0.0     0.0     NaN
2015-03-02 00:00:00     0.0     0.0     0.0
2015-03-02 01:00:00     0.0     0.0     0.0
2015-03-02 02:00:00     0.0     0.0     0.0
2015-03-02 03:00:00     0.0     0.0     0.0
2015-03-02 04:00:00     0.0     0.0     0.0
2015-03-02 05:00:00     0.0     0.0     0.0
2015-03-02 06:00:00     0.0     0.0     0.0
2015-03-02 07:00:00     0.0     0.0     0.0
2015-03-02 08:00:00     0.0     0.0     0.0
2015-03-02 09:00:00     0.0     0.0     0.0
2015-03-02 10:00:00     0.0     0.0     0.0
2015-03-02 11:00:00     0.0     0.0     0.0
2015-03-02 12:00:00     2.4     2.7     1.9<<

Чтобы сделать вещи немного более пряными, некоторые из нулей являются NaN, но полезно, чтобы число появлялось в час = 12:00. Повторяющаяся природа указывает, что это ошибочные данные, поэтому их нужно удалить.

Я думал что-то вроде:

if data at df.index.hour = 12 is preceded by 23 values where np.nanmean = 0 then make all values in sequence = np.nan

Но я новичок в python и не уверен, как перевести это в скрипт .

Заранее спасибо:)

...