PySpark: Как бороться с недопустимыми символами при записи данных в паркет? - PullRequest
0 голосов
/ 13 февраля 2020

У меня есть фрейм данных, который содержит много специальных символов, таких как ä, ö, ü. Я читаю данные из CSV, используя кодировку ISO-8859-1. Теперь я хотел бы записать свой фрейм данных в паркет, чтобы воспользоваться предикатом pu sh -down et c. Я попытался сделать это с помощью следующей команды:

 df.write.parquet('df.parquet', mode='overwrite')

Я получаю следующую ошибку:

org. apache .spark. sql .AnalysisException: Имя атрибута "Fahrer Führerscheindatum" содержит недопустимый символ (ы) среди ",; {} () \ n \ t =". Пожалуйста, используйте псевдоним, чтобы переименовать его.;

Теперь мой фрейм данных довольно большой. Как преодолеть эту ошибку, не находя и не заменяя все недопустимые символы? Есть ли что-то, что я могу сделать уже при чтении из файла CSV? Пожалуйста, ознакомьтесь с моим утверждением для чтения ниже:

df = spark.read.format("csv").option("delimiter", ";").option("header", True).option("encoding", "ISO-8859-1").load(path_to_claims_data, inferSchema =True, samplingRatio = 0.5)

Ответы будут с благодарностью.

...