Я использую PySpark для чтения относительно большого CSV-файла (~ 10 ГБ):
ddf = spark.read.csv('directory/my_file.csv')
Все столбцы имеют тип данных string
Послеизменяя тип данных, например, column_a
Я вижу, что тип данных изменился на integer
.Если я записываю ddf
в файл паркета и читаю файл паркета, я замечаю, что все столбцы снова имеют тип данных string
. Вопрос: Как я могу убедиться, что файл паркета содержит правильные типы данных, чтобы мне больше не приходилось менять тип данных (при чтении файла паркета).
Примечания :
Я пишу ddf
в виде файла паркета следующим образом:
ddf.repartition(10).write.parquet('directory/my_parquet_file', mode='overwrite')
Я использую:
- PySparkверсия
2.0.0.2
- Python 3.x