Я пытаюсь прочитать файлы csv.deflate из пути hdfs и поместить их в фрейм данных dask. Я пробовал read_csv и получаю ошибку «UnicodeDecodeError: 'utf-8' code c не может декодировать байт 0x9 c в позиции 1: недопустимый начальный байт». Затем я установил engine = 'python' и encoding = 'utf-8', но все равно получаю ту же ошибку.
Возможно, ключевое слово compress = поможет? Как бы вы прочитали эти данные локально с помощью Pandas? Я подозреваю, что вам понадобятся те же аргументы ключевого слова, которые вам понадобятся в этом случае.