формат данных панд для сохранения DateTimeIndex - PullRequest
0 голосов
/ 31 мая 2018

Я много работаю с данными, имеющими индексы DateTime и мультииндексы.Сохранение и чтение в формате .csv утомительно, потому что каждый раз, когда мне нужно выполнить reset_index и назвать его «date», затем, когда я снова читаю, мне нужно преобразовать дату обратно в datetime и установить индекс.Какой формат поможет мне избежать этого?Я бы предпочел что-то с открытым исходным кодом - например, я думаю, что SAS и Stata сделают это, но они являются собственностью.

1 Ответ

0 голосов
/ 31 мая 2018
Для этого было создано перо

: https://github.com/wesm/feather

Перо обеспечивает двоичную столбцовую сериализацию для фреймов данных.Он предназначен для эффективного чтения и записи фреймов данных и упрощения обмена данными между языками анализа данных.Эта первоначальная версия поставляется с привязками для python (написано Уэсом МакКинни) и R (написано Хэдли Уикхемом).

Feather использует спецификацию столбчатой ​​памяти Apache Arrow для представления двоичных данных на диске.Это делает операции чтения и записи очень быстрыми.Это особенно важно для кодирования значений null / NA и типов переменной длины, таких как строки UTF8.

Перо является частью более широкого проекта Apache Arrow.Feather определяет свои собственные упрощенные схемы и метаданные для представления на диске.

В настоящее время Feather поддерживает следующие типы столбцов:

Широкий диапазон числовых типов (int8, int16, int32, int64, uint8)., uint16, uint32, uint64, float, double).Логические / логические значения.Даты, время и временные метки.Факторы / категориальные переменные, которые имеют фиксированный набор возможных значений.UTF-8 кодированные строки.Произвольные двоичные данные.

...