Вот архетипический сценарий:
- Я создаю Dask DataFrame из набора файлов Parquet, написанных FastParquet
- Я запускаю
categorize()
на DataFrame. Многие категории становятся вновь «известными».
- Я сохраняю DataFrame в новый набор файлов Parquet через FastParquet
Новые файлы Parquet теперь занимают в несколько раз больше места на диске, чем оригинальный набор! Теперь я не забочусь о дисковом пространстве - у меня достаточно - скорее, я ищу понимания:
Даже если категории исходного набора файлов не были «известны», они все равно должны были находиться на дисковом пространстве набора файлов где-то . Во всяком случае, можно ожидать уменьшения использования диска, если в категориальных столбцах исходного набора файлов не использовался словарь для начала.
Так что, да, просто пытаюсь понять. Что дает?