Использование EMR с 4 рабочими и 1 мастером
- метка выпуска: emr-5.24.0
- Распределение Hadoop: Amazon 2.8.5
- Применение: Spark 2.4.2, Hive 2.3.4
Я могу обработать свои данные и создать правильный фрейм данных в pyspark. Но когда я записываю (паркет) df на S3, файлы действительно помещаются в S3 в правильном месте, но в 3 из 7 столбцов внезапно пропадают данные.
Может кто-нибудь объяснить, что мне нужно сделать, чтобы это исправить? Вот соответствующий код и скриншоты результатов. Я переименовал некоторые столбцы на скриншотах, чтобы сохранить конфиденциальность.
Мой код:
# For multi tables
df_multi.show(5)
df_multi.printSchema()
print("\n At line 578, after show(), writing to EDL\n")
df_multi.write.mode("append").parquet(multi_s3_bucket_dir)
print("\n SCRIPT COMPLETED \n")
Скриншот вывода при запуске скрипта. Я запускаю его как nohup и перенаправляю stdin & sterr в файл, чтобы посмотреть позже
А вот вывод, прочитанный с S3 с использованием Athena: