Загрузка Pyspark UTF-8 csvs приводит к неправильному кодированию спецификации - PullRequest
0 голосов
/ 21 мая 2019

У меня есть приложение, которое загружает файлы CSV (в кодировке UTF-8, также называемые кодировкой CSV по умолчанию) в кадры данных PySpark. Он делает это около года без каких-либо проблем, но внезапно читает в спецификации как часть файла (символ).

Переключение кодировки на UTF-16 или cp1252, похоже, не работает, и, похоже, PySpark не поддерживает кодировку UTF-8-sig.

Кто-нибудь сталкивался с этой проблемой в последнее время? Похоже, что Excel недавно обновил что-то, что вызывает это.

Код, используемый для чтения CSV:

self.data = self.spark.read.csv(path=self.input_file,header=True, schema=self.schema)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...