Является ли pandas самым легким способом с точки зрения памяти для импорта больших наборов данных? - PullRequest
0 голосов
/ 02 апреля 2019

Я нахожусь в процессе настройки службы мониторинга через Python, которая будет запрашивать веб-API. Он будет выполнять множество простых действий, таких как подсчет количества возвращенных записей и отслеживание времени выполнения каждого запроса. Фактические возвращенные данные не имеют никакого значения, кроме количества записей, но вот бесполезный фрагмент:

     Value             Timestamp UnitsAbbreviation  Good  Questionable  Substituted
0        0  2019-04-01T02:50:40Z                    True         False        False
1        0  2019-04-01T02:50:40Z                    True         False        False
2        0  2019-04-01T02:55:40Z                    True         False        False
3        0  2019-04-01T02:55:40Z                    True         False        False
4        0  2019-04-01T03:00:40Z                    True         False        False
5        0  2019-04-01T03:00:40Z                    True         False        False

Поскольку мои данные находятся в OSI PI, я изначально шел по пути использования библиотеки, которая загружает данные в Dataframe. В какой-то момент все данные возвращаются как JSON, но библиотека включает их в Dataframe для вас. Я подумал, что Dataframe обладает гораздо большей мощью / возможностями, чем то, что мне нужно сделать. Я ожидал бы, что это будет занимать больше памяти, чем другие методы.

Итак, у меня два вопроса:

  1. Для моего случая использования есть более легкий и эффективный способ использовать API, рассчитать время события туда и обратно, а затем подсчитать количество записей?

  2. В общем, насколько тяжелым является Dataframe и какие альтернативы легче / дешевле?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...