Почему категоризация Dask DataFrame, созданного из файла Parquet, резко увеличивает его размер? - PullRequest
0 голосов
/ 22 марта 2019

Вот архетипический сценарий:

  1. Я создаю Dask DataFrame из набора файлов Parquet, написанных FastParquet
  2. Я запускаю categorize() на DataFrame. Многие категории становятся вновь «известными».
  3. Я сохраняю DataFrame в новый набор файлов Parquet через FastParquet

Новые файлы Parquet теперь занимают в несколько раз больше места на диске, чем оригинальный набор! Теперь я не забочусь о дисковом пространстве - у меня достаточно - скорее, я ищу понимания:

Даже если категории исходного набора файлов не были «известны», они все равно должны были находиться на дисковом пространстве набора файлов где-то . Во всяком случае, можно ожидать уменьшения использования диска, если в категориальных столбцах исходного набора файлов не использовался словарь для начала.

Так что, да, просто пытаюсь понять. Что дает?

...