Dask читать паркет файл от искры - PullRequest
1 голос
/ 23 апреля 2020

Для файла паркета, написанного с помощью spark (без разметки), его директой выглядит так:

%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS

При попытке чтения через pandas:

pd.read_parquet('foo.parquet')

все работает нормально как и ожидалось.

Однако при использовании dask происходит сбой:

dd.read_parquet('foo.parquet')
 [Errno 17] File exists: 'foo.parquet/_SUCCESS'

Что мне нужно изменить, чтобы dask мог успешно читать данные?

1 Ответ

0 голосов
/ 23 апреля 2020

Оказывается, pandas использует pyarrow. При переключении на этот бэкэнд для dask:

 dd.read_parquet('foo.parquet', engine='pyarrow')

он работает так же, как ожидалось

...