Могу ли я импортировать / хранить файлы данных во временной рабочей библиотеке в Python? - PullRequest
0 голосов
/ 11 апреля 2020

Я хотел бы работать с файлами .xlsx, и я попробовал встроенные функции open() и pandas pd.read_excel(), обе из которых работают, но я должен каждый раз включать их в сборку и повторно импортировать большие файлы данных занимают много времени.

Я более знаком с SAS, где вы можете фиксировать файлы в библиотеку WORK, есть ли что-то похожее с Python, может быть, пакет, который я могу использовать?

1 Ответ

1 голос
/ 11 апреля 2020

У вас есть 2 варианта сериализации данных и их сохранения в файле

pickle файлов: один кадр данных на файл

df = pd.read_pickle('data.pkl')
df.to_pickle('data.pkl')

hdf5 файлов: несколько фреймов данных на файл

df = pd.read_hdf('data.h5', 'myframe')
df.to_hdf('data.h5', 'myframe')

Оба метода работают намного быстрее, чем файлы 'xlsx', используют меньше дискового пространства и сохраняют структуру ваших объектов и типы данных. Я думаю, hdf5 - это больше, чем вы имели в виду в своей «библиотеке».

см .: Pandas HDF5 (PyTables)

...