Чтение CSV-файла в pyspark с кодировкой ANSI - PullRequest
0 голосов
/ 08 января 2020

Я пытаюсь прочитать текстовый файл в формате csv /, который требует его считывания с использованием кодировки ANSI. Однако это не работает. Любые идеи?

mainDF= spark.read.format("csv")\
                  .option("encoding","ANSI")\
                  .option("header","true")\
                  .option("maxRowsInMemory",1000)\
                  .option("inferSchema","false")\
                  .option("delimiter", "¬")\
                  .load(path)

java .nio.charset.UnsupportedCharsetException: ANSI

Размер файла превышает 5 ГБ, следовательно, требуется искра.

Я также пробовал ANSI в нижнем регистре

1 Ответ

1 голос
/ 08 января 2020

ISO-8859-1 аналогичен ANSI, поэтому замените его, как указано выше

...