У меня есть данные в S3, сохраненные в формате файла Parquet, но некоторые типы данных неверны. Поскольку схема уже находится внутри файлов Parquet - как заставить снова «вывести» схему (игнорируя текущую схему) в Dataframe?
Текущий код:
df_raw = spark.read.parquet("s3://myfolder/data/")
df_raw.printSchema() -> Wrong Data Types
Я хотел бы иметь df_fixed
с теми же данными и правильной (логической) схемой.
Спасибо.