вычисления dask получили разные ошибки с pyarrow и s3 - PullRequest
1 голос
/ 26 февраля 2020

Я выполнял некоторые групповые параллельные вычисления с dask, используя pyarrow для загрузки файлов паркета из s3. Тем не менее, один и тот же фрагмент кода может выполняться или не работать (с разными сообщениями об ошибках) со случайными шансами. Та же проблема произошла при использовании fastparquet:

File "pyarrow/_parquet.pyx", line 1036, in pyarrow._parquet.ParquetReader.open
File "pyarrow/error.pxi", line 80, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: IOError: [SSL: DECRYPTION_FAILED_OR_BAD_RECORD_MAC] decryption failed or bad record mac (_ssl.c:2309). Detail: Python exception: ssl.SSLError

или сбой с другой ошибкой:

File "pyarrow/_parquet.pyx", line 1036, in pyarrow._parquet.ParquetReader.open
  File "pyarrow/error.pxi", line 80, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: IOError: [SSL: WRONG_VERSION_NUMBER] wrong version number (_ssl.c:2309). Detail: Python exception: ssl.SSLError

Я использовал планировщик dask-процессов. Он отлично работает с потоками, но будет очень медленным. Ожидается ли такое поведение в сумерках?

...