После загрузки файла паркета в мой кластер kubernetes для обработки с помощью Dask, я получаю FileNotFoundError при попытке прочитать
df=dd.read_parquet('home/jovyan/foo.parquet')
df.head()
Вот полная ошибка:
FileNotFoundError: [Errno 2] No such file or directory: '/home/jovyan/user_engagement_anon.parquet/part.0.parquet'
Я вижу, что файл действительно существует, и относительно рабочего каталога моего экземпляра ноутбука jupyter он находится в ожидаемом месте.
Я не уверен, имеет ли это значение, но чтобы запустить клиент dask в моем кластере kubernetes, я использовал следующий код:
from dask.distributed import Client, progress
client=Client('dask-scheduler:8786', processes=False, threads_per_worker=4, n_workers=1, memory_limit='1GB')
client
Кроме того, та же операция отлично работает на моей локальной машине с тем же файлом паркета