У меня большой массив данных разреженных панд, состоящий из 477 тыс. Строк и 530 столбцов с разными типами. Когда я проверяю использование памяти внутри панды, используя:
df.memory_usage().sum()
Это дает мне размер в гигабайтах. Итак, я преобразовал фрейм данных в разреженный фрейм данных, используя:
df.to_sparse()
И, теперь, memory_usage уменьшен до 80 МБ. Но при экспорте в Excel размер файла на диске составляет около 500 МБ. Файл открывается, но для открытия и изучения данных требуется вечность. Когда я выбираю столбец в Excel, он должен подсчитывать количество записей в этом столбце, и в этом случае он дает мне счет как длину кадра данных (т.е. 477 тыс. Строк), но на самом деле этот столбец имеет около 15000 записей заполнены данными, а остальные - пустыми (одинаковыми для всех столбцов). Я предполагаю, что при экспорте данных в Excel, он также заполняет данные в пустые ячейки. Есть ли способ, которым я могу избавиться от этой проблемы?