df.repartition(partition_size="100MB")
возвращает Dask Dataframe .
Вы должны написать:
df = df.repartition(partition_size="100MB")
Вы можете проверить количество созданных разделов, взглянув на df.npartitions
Кроме того, вы можете использовать следующие файлы для записи своих файлов паркета:
df.to_parquet(output_path)
Поскольку файлы паркета предназначены для работы с большими файлами , вам также следует рассмотреть возможность использования Аргумент compression=
при написании паркетных файлов.
Вы должны получить то, что ожидаете .
NB: Запись import dask.dataframe as pd
вводит в заблуждение потому что import dask.dataframe as dd
обычно используется