Размер панд to_hdf различен для режима добавления и режима записи - PullRequest
0 голосов
/ 30 сентября 2019

Я проверил режим добавления данных к пандам и получил странный результат.

for df in df_list:
    df.to_hdf('./data_test.h5', 'df', append=True, format='table')

Я создал hdf-файл (.h5), содержащий около 2 миллионов строк, и этот файл был создан путем вставки в режиме добавления, чтобы он повторялся каждые 0,1 миллиона строк.

И этот размер файла составляет 511,3 М

Затем я просто загрузил все данные

df = pd.read_hdf('./data_test.h5', 'df')

, затем снова сохранил с другим именем

df.to_hdf('./data_test_NUMBER2.h5', 'df', format='table')

Тогда этот размер файла составляет 240М.

Понятия не имею, почему размер файла сильно отличается. Это потому, что я могу пропустить некоторые параметры при сохранении в режиме добавления?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...