Question

У меня есть приложение, которое загружает файлы CSV (в кодировке UTF-8, также называемые кодировкой CSV по умолчанию) в кадры данных PySpark. Он делает это около года без каких-либо проблем, но внезапно читает в спецификации как часть файла (символ).

Переключение кодировки на UTF-16 или cp1252, похоже, не работает, и, похоже, PySpark не поддерживает кодировку UTF-8-sig.

Кто-нибудь сталкивался с этой проблемой в последнее время? Похоже, что Excel недавно обновил что-то, что вызывает это.

Код, используемый для чтения CSV:

self.data = self.spark.read.csv(path=self.input_file,header=True, schema=self.schema)

Загрузка Pyspark UTF-8 csvs приводит к неправильному кодированию спецификации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Загрузка Pyspark UTF-8 csvs приводит к неправильному кодированию спецификации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов