Я работаю на кластере EMR через AWS и работаю на Jupyterhub.
У меня есть фрейм данных pyspark, который я хотел бы сохранить в один CSV. Я пробовал различные методы для сохранения в CSV, код выполняется, но в моем каталоге ничего не появляется. Я пробовал также выводить другие каталоги, но безрезультатно.
Я проверил каталоги в кластере oop и файлы нигде не были.
Есть идеи, почему я не могу записать файл?
Если я перезапущу команду, я вижу, что сохранено:
pyspark.sql.utils.AnalysisException: 'path hdfs://myip.ec2.internal:8020/home/sanjay/mydata.csv already exists.;'