Для файла паркета, написанного с помощью spark (без разметки), его директой выглядит так:
%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS
При попытке чтения через pandas:
pd.read_parquet('foo.parquet')
все работает нормально как и ожидалось.
Однако при использовании dask происходит сбой:
dd.read_parquet('foo.parquet')
[Errno 17] File exists: 'foo.parquet/_SUCCESS'
Что мне нужно изменить, чтобы dask мог успешно читать данные?