Я проверил режим добавления данных к пандам и получил странный результат.
for df in df_list:
df.to_hdf('./data_test.h5', 'df', append=True, format='table')
Я создал hdf-файл (.h5), содержащий около 2 миллионов строк, и этот файл был создан путем вставки в режиме добавления, чтобы он повторялся каждые 0,1 миллиона строк.
И этот размер файла составляет 511,3 М
Затем я просто загрузил все данные
df = pd.read_hdf('./data_test.h5', 'df')
, затем снова сохранил с другим именем
df.to_hdf('./data_test_NUMBER2.h5', 'df', format='table')
Тогда этот размер файла составляет 240М.
Понятия не имею, почему размер файла сильно отличается. Это потому, что я могу пропустить некоторые параметры при сохранении в режиме добавления?