Question

У меня есть данные в S3, сохраненные в формате файла Parquet, но некоторые типы данных неверны. Поскольку схема уже находится внутри файлов Parquet - как заставить снова «вывести» схему (игнорируя текущую схему) в Dataframe?

Текущий код:

df_raw = spark.read.parquet("s3://myfolder/data/")
df_raw.printSchema() -> Wrong Data Types

Я хотел бы иметь df_fixed с теми же данными и правильной (логической) схемой.

Спасибо.

Pyspark - Как заставить Spark снова выводить схему при чтении из файлов Parquet, которые уже имеют (неправильную) схему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark - Как заставить Spark снова выводить схему при чтении из файлов Parquet, которые уже имеют (неправильную) схему?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов