Я заинтересован в настройке или исправлении панд так, чтобы их память была как можно меньше. В эксперименте я создал 2 массива numy, каждый из которых содержит 50 миллионов значений uint32. Хранение этих массивов в цифровом формате требует 200 + 200 = 400 Мбайт. Если я оберну один из массивов в объект Series (с индексом = None), то он потребляет ~ 600 Мбайт памяти. Если я оберну эти два массива в объект DataFrame (с индексом = Нет), то требование к памяти составит ~ 1600 Мбайт.
Кажется, что дополнительное требование к памяти составляет #rows * 8 байт для хранения Series и #rows * (#columns + 1) * 8 байт для хранения DataFrame. Можете ли вы объяснить, какие дополнительные данные в точности хранятся в Series и объекте DataFrame вместе с исходными массивами numpy
?