Анализ времени ежедневных данных с пандами - PullRequest
0 голосов
/ 25 сентября 2018

У меня есть серия наблюдений с разрешением в одну минуту для нескольких не непрерывных, но полных дней.Данные организованы в виде сводной таблицы с днями в столбцах и временами в строках.

          2006-01-21  2006-01-24     ...      2006-02-08  2006-03-22
00:00:00        5.80        4.14     ...            7.03        4.27
00:01:00        4.71        5.22     ...            7.04        5.66
00:02:00        4.82        5.57     ...            4.11        5.04
00:03:00        3.20        4.11     ...            7.38        4.79
00:04:00        2.67        4.08     ...            6.39        6.91

Я должен выполнить статистику наблюдений, происходящих в одно и то же время в разные дни, также учитывая влияние времениагрегация (повторная выборка).

          Mean  StD
00:00:00   ...  ...
00:01:00   ...  ...
00:02:00   ...  ...

          Mean  StD
00:10:00   ...  ...
00:20:00   ...  ...
00:30:00   ...  ...

Пока я просто сохраняю фрейм данных в виде сводной таблицы, преобразуя индекс и столбцы в соответственно объекты datetime.time и datetime.date, но у меня возникают проблемы, когда:

  • Попытка выбрать столбцы между двумя датами
  • Повторная выборка кадра данных с более грубым временным разрешением (например, 10 минут)

Можете ли вы предложить наиболее эффективныеспособ структурирования кадра данных для этого вида операции?

1 Ответ

0 голосов
/ 25 сентября 2018

Мой подход заключается в том, чтобы изменить форму данных, чтобы иметь только три столбца: дата, время, значение.Таким образом, вы можете делать свои агрегации, делая groupby по времени.Выбор между двумя датами становится проще, потому что теперь вы выбираете строки, а не столбцы.Фактически на повторную выборку это не влияет и зависит от метода повторной выборки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...