Я пытаюсь прочитать один большой parquet
файл (размер> gpu_size), используя dask_cudf
/ dask
, но в настоящее время он читает его в один раздел, который, как я предполагаю, является ожидаемым поведением, вытекающим изстрока документа:
dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs):
Read a Parquet file into a Dask DataFrame
This reads a directory of Parquet data into a Dask.dataframe, one file per partition.
It selects the index among the sorted columns if any exist.
Можно ли обойти эту проблему, прочитав ее на несколько разделов?