Question

Я пытаюсь прочитать один большой parquet файл (размер> gpu_size), используя dask_cudf / dask, но в настоящее время он читает его в один раздел, который, как я предполагаю, является ожидаемым поведением, вытекающим изстрока документа:

dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs):

    Read a Parquet file into a Dask DataFrame
    This reads a directory of Parquet data into a Dask.dataframe, one file per partition. 
    It selects the index among the sorted columns if any exist.

Можно ли обойти эту проблему, прочитав ее на несколько разделов?

MRocklin · Answer 1 · 19 октября 2019

Наборы данных паркета могут быть сохранены в отдельных файлах. Каждый файл может содержать отдельные группы строк. Dask Dataframe считывает каждую группу строк Parquet в отдельный раздел.

Исходя из того, что вы говорите, звучит так, будто ваш набор данных имеет только одну группу строк. Если это так, то, к сожалению, Даск здесь ничего не может сделать.

Возможно, вы захотите вернуться к источнику данных, чтобы увидеть, как они были сохранены, и убедиться, что любой процесс, сохраняющий этот набор данных, делает это так, чтобы он не создавал очень большие группы строк.

Как прочитать один большой файл паркета на несколько разделов, используя dask / dask-cudf?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как прочитать один большой файл паркета на несколько разделов, используя dask / dask-cudf?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы