Question

Вот архетипический сценарий:

Я создаю Dask DataFrame из набора файлов Parquet, написанных FastParquet
Я запускаю categorize() на DataFrame. Многие категории становятся вновь «известными».
Я сохраняю DataFrame в новый набор файлов Parquet через FastParquet

Новые файлы Parquet теперь занимают в несколько раз больше места на диске, чем оригинальный набор! Теперь я не забочусь о дисковом пространстве - у меня достаточно - скорее, я ищу понимания:

Даже если категории исходного набора файлов не были «известны», они все равно должны были находиться на дисковом пространстве набора файлов где-то . Во всяком случае, можно ожидать уменьшения использования диска, если в категориальных столбцах исходного набора файлов не использовался словарь для начала.

Так что, да, просто пытаюсь понять. Что дает?

Почему категоризация Dask DataFrame, созданного из файла Parquet, резко увеличивает его размер?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Почему категоризация Dask DataFrame, созданного из файла Parquet, резко увеличивает его размер?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы