Нет такого файла или каталога: ... / part.0.parquet - PullRequest
1 голос
/ 20 марта 2019

После загрузки файла паркета в мой кластер kubernetes для обработки с помощью Dask, я получаю FileNotFoundError при попытке прочитать

df=dd.read_parquet('home/jovyan/foo.parquet')
df.head()

Вот полная ошибка:

FileNotFoundError: [Errno 2] No such file or directory: '/home/jovyan/user_engagement_anon.parquet/part.0.parquet'

Я вижу, что файл действительно существует, и относительно рабочего каталога моего экземпляра ноутбука jupyter он находится в ожидаемом месте.

Я не уверен, имеет ли это значение, но чтобы запустить клиент dask в моем кластере kubernetes, я использовал следующий код:

from dask.distributed import Client, progress

client=Client('dask-scheduler:8786', processes=False, threads_per_worker=4, n_workers=1, memory_limit='1GB')
client

Кроме того, та же операция отлично работает на моей локальной машине с тем же файлом паркета

1 Ответ

1 голос
/ 21 марта 2019

Проблема заключалась в том, что я устанавливал dask отдельно, используя релиз helm.Таким образом, работники dask не использовали ту же файловую систему, что и ноутбук jupyter

. Чтобы исправить это, я использовал библиотеку python dask-kubernetes для создания рабочих, а не отдельную версию helm.

...