Jupyterhub - сохранить pyspark df в csv, код выполняется, но файл не создается на странице jupyterhub, только создается в файловой системе HDFS - PullRequest
0 голосов
/ 12 апреля 2020

Я работаю на кластере EMR через AWS и работаю на Jupyterhub.

У меня есть фрейм данных pyspark, который я хотел бы сохранить в один CSV. Я пробовал различные методы для сохранения в CSV, код выполняется, но в моем каталоге ничего не появляется. Я пробовал также выводить другие каталоги, но безрезультатно.

Я проверил каталоги в кластере oop и файлы нигде не были.

Есть идеи, почему я не могу записать файл?

enter image description here

enter image description here

Если я перезапущу команду, я вижу, что сохранено:

pyspark.sql.utils.AnalysisException: 'path hdfs://myip.ec2.internal:8020/home/sanjay/mydata.csv already exists.;'
...