Pyspark - Как заставить Spark снова выводить схему при чтении из файлов Parquet, которые уже имеют (неправильную) схему? - PullRequest
1 голос
/ 07 февраля 2020

У меня есть данные в S3, сохраненные в формате файла Parquet, но некоторые типы данных неверны. Поскольку схема уже находится внутри файлов Parquet - как заставить снова «вывести» схему (игнорируя текущую схему) в Dataframe?

Текущий код:

df_raw = spark.read.parquet("s3://myfolder/data/")
df_raw.printSchema() -> Wrong Data Types

Я хотел бы иметь df_fixed с теми же данными и правильной (логической) схемой.

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...