Самый эффективный способ сохранить pandas Dataframe на диске для частого доступа? - PullRequest
0 голосов
/ 07 мая 2020

Я работаю над приложением, которое генерирует пару сотен наборов данных каждые десять минут. Эти наборы данных состоят из отметки времени и некоторых соответствующих значений текущего измерения. (Почти) Естественно, я использую pandas фреймов данных для управления данными в памяти.

Теперь мне нужно поработать с историческими данными (например, усреднение или суммирование по дням / неделям / месяцам и т. Д. c., Но не ограничиваясь этим), и мне нужно довольно часто обновлять эти накопленные значения (в идеале также каждые десять минут), поэтому мне интересно, какой способ хранения данных на диске был бы наиболее эффективным с точки зрения доступа?

До сих пор я сохранял данные для каждого десятиминутного интервала в отдельном csv-файл, а затем при необходимости считайте соответствующие файлы в новый фрейм данных. Но я считаю, что должен быть более эффективный способ, особенно когда дело касается работы с большим количеством наборов данных. Хотя стоимость вычислений и память не являются центральной проблемой, поскольку я запускаю код на сравнительно мощной машине, но я все еще не хочу (и, скорее всего, не могу себе этого позволить) каждый раз считывать все данные в память. .

Мне кажется, что ответ должен быть ie во встроенных функциях сериализации pandas, но из документов и моих результатов в Google я, честно говоря, не могу сказать, что подойдет под мои нужды. Лучший.

Есть идеи, как я могу лучше управлять своими данными?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...